Основы регрессионного анализа

Автор работы: Пользователь скрыл имя, 03 Марта 2014 в 10:56, реферат

Краткое описание

Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, что эти данные являются значениями случайной величины. Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.

Вложенные файлы: 1 файл

Основы регрессионного анализа .docx

— 574.62 Кб (Скачать файл)

Для пространственных данных характерно 2 свойства, которые затрудняют (не делают невозможным) применение традиционных (непространственных) методов, таких как МНК:

  • Географические объекты довольно часто пространственно автокоррелированы. Это означает, что объекты, расположенные ближе друг к другу более похожи между собой, чем удаленные объекты. Это создает переоцененный тип систематических ошибок для традиционных моделей регрессии.

  • География важна, и часто наиболее важные процессы нестационарны. Эти процессы протекают по-разному в разных частях области изучения. Эта характеристика пространственных данных может относиться как к региональным вариациям, так и к нестационарности.

Настоящие методы пространственной регрессии были разработаны, чтобы устойчиво справляться с этими двумя характеристиками пространственных данных и даже использовать эти свойства пространственных данных, чтобы улучшать моделирование взаимосвязей. Некоторые методы пространственной регрессии эффективно имеют дело с 1 характеристикой (пространственная автокорреляция), другие - со второй (нестационарность). В настоящее время, нет методов пространственной регрессии, которые эффективны с обеими характеристиками. Для правильно настроенной модели ГВР пространственная автокорреляция обычно не является проблемой.

2.2 Региональные вариации

Глобальные модели, подобные МНК, создают уравнения, наилучшим образом описывающие общие связи в данных в пределах изучаемой территории. Когда те взаимосвязи противоречивы в пределах территории изучения, МНК хорошо моделирует эти взаимосвязи. Когда те взаимосвязи ведут себя по-разному в разных частях области изучения, регрессионное уравнение представляет средние результаты, и в случае, когда те взаимосвязи представляют 2 экстремальных значения, глобальное среднее не моделирует хорошо эти значения. Когда ваши независимые переменные испытывают нестационарность (региональные вариации), глобальные модели не подходят, а необходимо использовать устойчивые методы регрессионного анализа. Идеально, вы сможете определить полный набор независимых переменных, чтобы справиться с региональными вариациями в ваших зависимых переменных. Если вы не сможете определить все пространственные переменные, вы снова заметите статистически значимую пространственную автокорреляцию в ваших отклонениях и/или более низкие, чем ожидалось, значения R-квадрат. К сожалению, вы не можете доверять результатам регрессии, пока все не устранено.

Существует как минимум 4 способа работы с региональными вариациями в МНК регрессионных моделях:

  1. Включить переменную в модель, которая объяснит региональные вариации. Если вы видите, что ваша модель всегда "перепредсказывает" на севере и "недопредсказывает" на юге, добавьте набор региональных значений:1 для северных объектов, и 0 для южных объектов.

  1. Используйте методы, которые включают региональные вариации в регрессионную модель, такие как географически взвешенная регрессия.

  1. Примите во внимание устойчивые стандартные отклонения регрессии и вероятности, чтобы определить, являются ли коэффициенты статистически значимыми. Изменить/сократить размер области изучения так, чтобы процессы в пределах новой области изучения были стационарными (не испытывали региональные вариации).

2.3 Пространственная автокорреляция

Существует большая разница в том, как традиционные и пространственные статистические методы смотрят на пространственную автокорреляцию. Традиционные статистические методы видят ее как плохую вещь, которая должна быть устранена, т.к. пространственная автокорреляция ухудшает предположения многих традиционных статистических методов. Для географа или ГИС-аналитика, однако, пространственная автокорреляция является доказательством важности пространственных процессов; это интегральная компонента данных. Удаляя пространство, мы удаляем пространственный контекст данных; это как только половина истории. Пространственные процессы и доказательство пространственных взаимосвязей в данных представляют собой особый интерес, и поэтому пользователи ГИС с радостью используют инструменты пространственного анализа данных. Однако, чтобы избежать переоцененный тип систематических ошибок в вашей модели, вы должны определить полный набор независимых переменных, которые эффективно опишут структуру ваших данных. Если вы не можете определить все эти переменные, скорее всего, вы увидите существенную пространственную автокорреляцию среди отклонений модели. К сожалению, вы не можете доверять результатам регрессии, пока все не устранено. Используйте инструмент Пространственная автокорреляция, чтобы выполнить тест на статистически значимую пространственную автокорреляцию для отклонений в вашей регрессии.

Как минимум существует 3 направления, как поступать с пространственной автокорреляцией в невязках регрессионных моделей.

  • Изменять размер выборки до тех пор, пока не удастся устранить статистически значимую пространственную автокорреляцию. Это не гарантирует, что в анализе будет полностью устранена проблема пространственной автокорреляции, но она значительно меньше, когда пространственная автокорреляция удалена из зависимых и независимых переменных. Это традиционный статистический подход к устранению пространственной автокорреляции и только подходит, если пространственная автокорреляция является результатом избыточности данных.
  • Изолируйте пространственные и непространственные компоненты каждой входящей величины, используя методы фильтрации в пространственной регрессии. Пространство удалено из каждой величины, но затем его возвращают обратно в регрессионную модель в качестве новой переменной, отвечающей за пространственные эффекты/пространственную структуру. ArcGIS в настоящее время не предоставляет возможности проведения подобного рода анализа.
  • Внедрите пространственную автокорреляцию в регрессионную модель, используя пространственные эконометрические регрессионные модели. Пространственные эконометрические регрессионные модели будут добавлены в ArcGIS в следующем релизе.

Однако, МНК надежен и эффективен, если ваши данные и регрессионная модель удовлетворяют всем предположениям, требуемым для этого метода (смотри таблицу внизу). Пространственные данные часто нарушают предположения и требования МНК, поэтому важно использовать инструменты регрессии в союзе с подходящими инструментами диагностики, которые позволяют оценить, является ли регрессия подходящим методом для вашего анализа, а приведенная структура данных и модель может быть применена.

  1. Этапы создания регрессионной модели

Регрессионный анализ используется для понимания, моделирования, прогнозирования и объяснения сложных явлений. Он помогает ответить на такие вопросы, как "Почему в США есть города, в которых оценки по тестам намного больше средних по стране?" и "Почему существуют области в городе с высоким уровнем грабежей домов?" Вы можете использовать регрессионный анализ, например, для объяснения ожирения среди детей с помощью набора связанных переменных, таких как доход, образование и доступность здоровой пищи.

Обычно регрессионный анализ позволяет ответить на эти вопросы и принять соответствующие меры. Если, например вы обнаружите, что степень ожирения среди детей меньше в школах, в которых на обед подаются свежие фрукты и овощи, вы сможете использовать эту информацию для принятия решений о программах питания в школах. Аналогично, если знать переменные, описывающие высокий уровень преступлений, можно прогнозировать будущие преступления и более эффективно выделять ресурсы для их предотвращения.

Однако, не всегда получается легко найти набор независимых переменных, с помощью которых можно ответить на ваши вопросы или объяснить сложное явление, которое вы пытаетесь смоделировать. Ожирение среди детей, уровень преступности, школьные оценки и почти все, что вы захотите смоделировать с помощью регрессионного анализа — это все очень сложные явления, которые редко дают простые ответы.

При запуске инструмента регрессии по методу наименьших квадратов вы получаете набор средств диагностики, позволяющих узнать, правильно ли вы настроили модель, которой можно доверять. Ниже описываются шесть проверок, которые необходимо пройти, чтобы быть уверенным в своей модели. Эти проверки и методы, которые можно использовать для решения распространенных задач регрессионного анализа — это ресурсы, которые действительно могут значительно облегчить вашу работу.

Приступая к работе

Выбор переменной, которую требуется изучить, спрогнозировать или смоделировать — это ваша первая задача. Эту переменную называют зависимой переменной. Ожирение среди детей, уровень преступности, школьные оценки — это зависимые переменные, моделируемые в примерах, приведенных ранее.

Затем необходимо решить, какие факторы могут объяснить вашу зависимую переменную. Такие переменные называют независимыми. В примере с ожирением среди детей независимыми переменными могут быть доход, образование и доступность здоровой пищи. Вам нужно провести собственные исследования, чтобы определить все существенные независимые переменные.

После выбора зависимых и независимых переменных вы можете приступать к анализу. Всегда начинайте анализ с использования инструмента Наименьшие квадраты (OrdinaryLeastSquares) или Исследовательская регрессия (ExploratoryRegression), так как они выполняют важные диагностические проверки и позволяют понять, нашли ли вы полезную модель или вам нужно еще потрудиться.

Инструмент OLS создает несколько выходных объектов, в том числе карту невязок регрессии и итоговый отчет. На карте невязок регрессии отображаются недооценки и переоценки вашей модели. Анализ этой карты — важный шаг при поиске хорошей модели. Итоговый отчет, в основном, числовой и содержит данные обо всех диагностических методах, используемых при прохождении шести проверок, описанных далее.

Инструмент OLS создает итоговый отчет и карту невязок.


 

Шесть проверок

Проверка 1. Помогают ли эти независимые переменные моей модели?

Изучив теорию и существующие исследования, вы получите набор потенциальных независимых переменных. Для каждой переменной могут существовать понятные причины для включения в модель. Но после запуска модели вы обнаружите, что некоторые независимые переменные являются статистически значимыми, а другие — нет.

Как узнать, какие независимые переменные являются статистически значимыми? Инструмент OLS вычисляет коэффициент для каждой независимой переменной в модели и выполняет статистический тест, чтобы определить, помогает ли эта переменная модели или нет. Статистический тест вычисляет вероятность того, что значение коэффициента фактически равно нулю. Если коэффициент равен нулю (или очень близок к нему), связанная независимая переменная не помогает вашей модели. Если, с другой стороны, статистический тест возвращает малую вероятность (p-значение) для определенной независимой переменной, это указывает, что коэффициент вряд ли будет равен нулю (вероятность этого мала). Если вероятность меньше 0,05, звездочка рядом с вероятностью в отчете OLS указывает, что связанная независимая переменная важна для вашей модели (другими словами, ее коэффициент статистически значим с уровнем уверенности 95%). Итак, вы ищете независимые переменные, связанные со статистически значимыми вероятностями (ищите переменные со звездочками).

Инструмент OLS вычисляет вероятность и устойчивую вероятность для каждой независимой переменной. При обработке пространственных данных отношения, моделируемые в области изучения, часто изменяются. Эти отношения называют нестационарными. При наличии нестационарых отношений можно доверять только устойчивым вероятностям при оценке статистической значимости независимой переменной.

Как узнать, являются ли отношения в вашей модели нестационарными? В итоговый отчет OLS включен еще один статистический тест, статистика Кенкера (стьюдентизированнаяКенкером статистика Бреуша-Пагана). Звездочка рядом с p-значением Кенкера указывает на то, что моделируемые отношения содержат статистически значимую нестационарность, поэтому следует принять во внимание устойчивые вероятности.

Обычно независимые переменные удаляются из модели, если не являются статистически значимыми. Однако, если теория говорит, что переменная очень важна, или определенная переменная является стержнем для вашего анализа, вы можете сохранить ее, даже если она статистически не значима.

В процессе поиска правильной модели OLS вы, скорее всего, опробуете различные независимые переменные. Помните, что коэффициенты независимых переменных (и их статистическая значимость) могут радикально изменяться в зависимости от переменных, включенных в модель.

Проверка 2. Соответствуют ли отношения ожиданиям?

Важно не только определить, помогает ли независимая переменная вашей модели, но и также проверить знак (+/-), связанный с каждым коэффициентом, чтобы отношения соответствовали вашим ожиданиям. Знак коэффициента независимой переменной определяет, являются ли отношения положительными или отрицательными. Предположим, вы моделируете уровень преступности, и одна из независимых переменных — это средний доход в районе. Если коэффициент переменной дохода отрицательный, это значит, что уровень преступности уменьшается при увеличении дохода в районе (отрицательные отношения). Если вы моделируете ожирение среди детей и у переменной доступности фастфуда положительный коэффициент, это означает, что степень ожирения увеличивается при повышенном доступе к фастфуду (положительные отношения).

При создании списка потенциальных независимых переменных необходимо для каждой из них включить ожидаемые отношения (положительные или отрицательные). Следует также не доверять моделям с отношениями, не соответствующими теории и/или здравому смыслу. Предположим, вы создаете модель для прогнозирования частоты лесных пожаров, а ваша модель регрессии вернула положительный коэффициент для переменной осадков. Вероятно, не следует ждать увеличения числа лесных пожаров с большим количеством дождей.

Информация о работе Основы регрессионного анализа