Основы регрессионного анализа

Автор работы: Пользователь скрыл имя, 03 Марта 2014 в 10:56, реферат

Краткое описание

Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, что эти данные являются значениями случайной величины. Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.

Вложенные файлы: 1 файл

Основы регрессионного анализа .docx

— 574.62 Кб (Скачать файл)

Непредвиденные знаки коэффициентов часто указывают на другие проблемы вашей модели, которые будут проявляться при продолжении проверок. Знаку и значению коэффициентов независимых переменных можно доверять, только если модель пройдет все шесть проверок. Если модель прошла все проверки с непредвиденным знаком коэффициента, возможно, вы сможете обнаружить какую-то новую закономерность. Может быть, что между частотой лесных пожаров и уровнем осадком имеют место положительные отношения, так как основным источником пожаров в изучаемой области являются молнии. Может быть полезным получить данные о молниях для вашей области изучения, чтобы посмотреть, улучшит ли это работу модели.

Проверка 3. Являются ли какие-либо независимые переменные избыточными?

При выборе независимых переменных для анализа ищите переменные, которые описывают различные аспекты моделируемого явления и избегайте переменные, говорящие об одном и том же. Например, если вы моделируете характеристики домов, не следует одновременно включать независимые переменные для площади дома и числа спален. Обе эти переменные связаны с размером дома, а применение обеих переменных может сделать модель нестабильной. По большому счету, нельзя доверять модели с избыточными переменными.

Как узнать, являются ли две или более переменных избыточными? К счастью, если у вас больше двух независимых переменных, инструмент OLS вычисляет Фактор увеличения дисперсии (VIF) для каждой из них. Значение ФУД (VIF) — это измерение избыточности переменной, которое помогает решить, какие переменные можно удалить из модели без ухудшения силы модели. Как правило, значение ФУД (VIF) выше 7,5 является проблематичным. Если у вас есть две или более переменных со значением ФУД (VIF) больше 7,5, удалите их по одной и запустите OLS повторно до устранения избыточности. Помните, что не следует удалять все переменные с высоким значением ФУД (VIF). В примере моделирования характеристик домов, у площади дома и числа спален будут высокие значения ФУД (VIF). После удаления одной из этих переменных избыточность будет устранена. Важно включить в анализ переменную, отражающую размер дома. Но не следует моделировать этот аспект избыточными переменными.

Проверка 4. Является ли моя модель смещенной?

Это может казаться сложным вопросом, но ответ довольно прост. В правильно настроенной модели OLS невязки модели (переоценки и недооценки) распределены нормально со средним числом, равным нулю (график в виде колокола). Если модель смещена, распределение невязок несбалансированно, как показано ниже. Вы не можете полностью доверять прогнозируемым результатам, если модель смещена. К счастью, существует несколько способов устранения этой проблемы.

Статистически значимая диагностика Жака-Бера, указывает на то, что модель смещена. Иногда модель хорошо работает с малыми значениями и плохо с большими (или наоборот). В примере с ожирением среди детей это означает, что в местах с малой степенью ожирения модель работает хорошо, а в областях с высокой степенью ожирения, прогнозируемые результаты неточны. Смещение модели может возникать из-за выбросов данных, влияющих на оценку модели.

Чтобы устранить смещение модели, создайте матрицу рассеяния для всех переменных модели. Нелинейные отношения между зависимой переменной и одной из независимых переменных часто приводят к смещению модели. В матрице рассеяния это может выглядеть как кривая линия. Линейные отношения выглядят как прямые диагональные линии.

Если между зависимой переменной и одной из независимых переменных существуют нелинейные отношения, вам нужно проделать определенную работу. OLS — это метод линейной регрессии, предполагающий, что вы моделируете линейные отношения. Если отношения нелинейные, вы можете попробовать преобразовать переменные, чтобы создать более линейные отношения. К распространенным преобразованиям относятся логарифмическое и экспоненциальное. Установите флажокПоказать гистограммы (ShowHistograms) (для включения) в мастере Создать матрицу рассеяния (CreateScatterplotMatrix), чтобы включить гистограмму для каждой переменной в матрицу рассеяния. Если некоторые независимые переменные сильно искажены, можно попробовать устранить смещение модели, выполнив и их преобразование.

Матрица рассеивания также показывает выбросы данных. Чтобы увидеть, влияет ли выброс на модель, попробуйте запустить инструмент OLS с выбросом и без него, чтобы увидеть, насколько меняется производительность модели и устраняется ли ее смещение. В некоторых случаях (особенно когда вы думаете, что выбросы представляют некорректные данные) вы сможете удалить выбросы из анализа.

Проверка 5. Найдены ли все ключевые независимые переменные?

Зачастую вы приступаете к анализу с гипотезами о том, какие переменные будут важными предикторами. Возможно, вы считаете, что 5 определенных переменных позволят получить хорошую модель, или у вас есть список из 10 переменных, которые могут быть связаны. Важно использовать гипотезы при анализе, но также важно и позволить вашей интуиции выходить за рамки гипотез. Не пытайтесь ограничиться исходным списком переменных и попробуйте учесть все возможные переменные, которые могут повлиять на моделируемое явление. Создайте тематические карты каждой из потенциальных независимых переменных и сравните их с картой зависимых переменных. Еще раз изучите литературу и связанные исследования. Позвольте вашей интуиции найти взаимосвязи в отображенных данных. Обязательно попробуйте сформировать наибольшее число потенциальных пространственных переменных, таких как расстояние от центра города, близость к основным магистралям или доступ к крупным водоемам. Такие типы переменных будут особенно важны для анализа, если вы считаете, что географические процессы влияют на отношения в ваших данных. Если вы не найдете полный набор независимых переменных, которые эффективно опишут структуру ваших данных в зависимой переменной, в вашей модели не будет важных независимых переменных и вы не сможете пройти все описанные в этой статье проверки.

Свидетельством того, что одна или несколько независимых переменных отсутствуют в модели, служит статистически значимая пространственная автокорреляция невязок вашей модели. В регрессионном анализа проблемы с пространственно автокоррелированными невязками обычно принимают форму кластеризации: переоценки объединяются друг с другом, а недооценки — друг с другом. Как узнать, имеется ли статически значимая пространственная автокорреляция среди невязок модели? Запустите инструмент Пространственная автокорреляция (SpatialAutocorrelation) для невязок регрессии, чтобы узнать о наличии проблем с пространственной автокорреляцией. Статистически значимое z-значение указывает на то, что в модели отсутствуют важные независимые переменные.

Поиск этих независимых переменных — это одновременно и искусство, и наука. Попробуйте использовать следующие стратегии:

Изучение карты невязок OLS

Стандартным результатом работы инструмента OLS является карта невязок модели. Красные области – местоположения, где реальные значения (зависимые переменные) больше оцененных в модели. Синие области – местоположения, где реальные значения меньше оцененных в модели. Иногда просто посмотрев на карту невязок, можно понять, какой переменной недостает. Если вы заметили, что в городских областях оценки постоянно завышаются, вы можете добавить переменную, отражающую расстояние от городских центров. Если переоценки связаны с горными вершинами или низинами, возможно, нужно добавить переменную высоты. Видите ли вы региональные кластеры или можете ли выявить тенденции в данных? Если это так, создайте бинарную переменную, чтобы ухватить эти региональные различия. Классическим примером бинарной переменной является переменная, отличающая городские и сельские объекты. Назначив всем сельским объектам значение 1, а другим объектам — значение 0, вы сможете сформулировать пространственные отношения, которые могут быть важны для модели. Иногда создание карты горячих невязок модели помогает отобразить общие региональные закономерности.

Поиск недостающих пространственных переменных не только потенциально улучшает вашу модель, но также помогает взглянуть на моделируемое явление с новых точек зрения.

Изучение нестационарности

Можно также попробовать запустить инструмент Географически взвешенная регрессия(GeographicallyWeightedRegression) и создать поверхности коэффициентов для каждой из независимых переменных и/или карт локальных значений R2. Выберите хорошо работающую модель OLS (с большим значением R2, которое позволяет пройти все или почти все другие диагностические проверки). Так как инструмент GWR создает уравнение регрессии для каждого объекта в области изучения, поверхности коэффициентов показывают, как отношения между зависимыми и независимыми переменными изменяются географически. Карта локальных значений R2 отображает вариации в зависимостях модели. Иногда просмотр этих географических вариаций позволяет сформулировать идеи о недостающих переменных: плохая работоспособность модели рядом с основными магистралями, спад на большом расстоянии от побережья, изменение знака коэффициентов рядом с промышленным районом или сильная тенденция с востока на запад — все это подсказки о пространственных переменных, которые могут улучшить модель.

При изучении поверхностей коэффициентов будьте внимательные с независимыми переменными с коэффициентами, которые меняют знак с плюса на минус. Это важно, так как инструмент OLS скорее всего не будет учитывать потенциал этих нестационарных переменных. Рассмотрим, например, взаимосвязь между ожирением среди детей и доступом к здоровой пище. В областях с низким доходом и плохим доступом к автомобилям, большое расстояние до супермаркета является настоящим препятствием для выбора здорового питания. В областях с высоким доходом с лучшим доступом к автомобилям, наличие супермаркета на небольшом расстоянии может быть нежелательным. Расстояние до супермаркета может совсем не мешать покупке здоровой еды. Хотя инструмент GWR может смоделировать такие типы сложных отношений, OLS этого не умеет. OLS — это глобальная модель, которая ожидает, что отношения переменных будут непротиворечивыми (стационарными) в пределах области изучения. Когда коэффициенты меняют знак, они отменяют друг друга. Представьте это как (+1) + (-1) = 0. Если вы нашли переменные с коэффициентами, которые радикально меняются, особенно если меняются знаки, следует сохранить их в модели, даже если они статистически незначимы. Такие типы переменных будут эффективны после перехода на GWR.

Использование инструмента OLS с меньшими областями изучения

GWR — это невероятно полезный  инструмент при работе с нестационарными  данными, поэтому может возникнуть  искушение сразу перейти к GWR без  поиска правильной модели OLS. К  сожалению, GWR не предоставляет такие  функции диагностики для определения  того, являются ли независимые переменные статистически значимы, имеют ли невязки нормальное распределение или является ли ваша модель работоспособной. GWR не исправит неправильно заданную модель, если вы не будете уверены в том, что единственной причиной того, что модель OLS не проходит шесть проверок, является нестационарность данных. Свидетельством нестационарности будут независимые переменные со строгими положительными отношениями в некоторых частях изучаемой области и строгими отрицательными отношениями в других частях. Иногда проблема заключается не в отдельных независимых переменных, а связана с набором независимых переменных, используемых в модели. Может быть так, что один набор переменных формирует лучшую модель для одной части области изучения, а другой набор переменных работает для других частей. Для проверки можно выбрать несколько меньших областей изучения и попробовать использовать модели OLS для каждой из них. Выбирайте подобласти в зависимости от процессов, которые, по вашему мнению, могут быть связаны с моделью (области с высоким и низким доходом, старые дома и новые дома). Или же можно выбрать области на основе карты GWR локальных значений R2. Местоположения с плохими показателями модели лучше смоделировать с другим набором независимых переменных.

Если вам удалось найти правильные модели OLS в нескольких небольших областях изучения, можно сделать вывод, что дело в нестационарности, и перейти к GWR с использованием полного набора независимых переменных из всех моделей. Если вам не удалось получить правильные модели в мелких областях, это может быть связано с тем, что вы пытаетесь смоделировать слишком сложное явление, которое нельзя свести к последовательности числовых измерений и линейных отношений. В этом случае необходимо изучить альтернативные методы анализа.

Для всего этого могут потребоваться определенные усилия, но это прекрасный опыт исследовательского анализа данных, который поможет вам лучше понять имеющиеся данные, найти новые переменные и получить улучшенную модель.

Проверка 6. Как хорошо я описываю зависимую переменную?

Теперь пришло время для оценки производительности модели. Скорректированное значение R2 — это важное измерение того, как хорошо независимые переменные моделируют вашу зависимую переменную. О значении R2 говорят одним из первых при рассказе о регрессионном анализе. Так почему мы оставили эту важную проверку на финал? Вам не говорят о том, что вы не можете доверять значению R2, если вы не прошли все другие проверки, описанные выше. Если модель смещена, она может хорошо работать в некоторых областях или определенном диапазоне значений зависимой переменной, но в других ситуациях она дает неточные показатели. Значение R2 этого не отражает. Аналогично, если имеется пространственная автокорреляция невязок, вы не можете доверять отношениям коэффициентов вашей модели. При наличии избыточных независимых переменных можно получить очень большие значения R2, но модель будет нестабильной. Она не будет отражать истинные отношения, которые вы хотите смоделировать, и может дать совсем другие результаты при добавлении даже небольшой порции новых данных.

После прохождения всех других проверок и выполнения всех необходимых критериев необходимо понять, как модель объясняет значения зависимой переменной за счет оценки скорректированного значения R2. Значения R2 лежат в диапазоне от 0 до 1 и представляют процентное отношение. Предположим, что вы моделируете частоту преступлений и получаете модель, которая прошла все пять предыдущих проверок со скорректированным значением R2, равным 0,65. Так вы будете знать, что независимые переменные в модели дают 65% данных о частоте преступлений (технически говоря, модель объясняет 65 процентов случаев поведения зависимой переменной частоты преступлений). К скорректированным значениям R2 следует подходить очень субъективно. В некоторых областях науки объяснение 23 процентов сложного явления будет большим достижением. В других сферах значение R2 должно быть равно 80 или 90 процентам, чтобы привлечь чье-то внимание. В любом случае, скорректированное значение R2 позволяет понять, как хорошо работает ваша модель.

Информация о работе Основы регрессионного анализа