Основы регрессионного анализа

Автор работы: Пользователь скрыл имя, 03 Марта 2014 в 10:56, реферат

Краткое описание

Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, что эти данные являются значениями случайной величины. Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.

Вложенные файлы: 1 файл

Основы регрессионного анализа .docx

— 574.62 Кб (Скачать файл)

Другой важный метод диагностики, позволяющий оценить производительность модели — это скорректированный информационный критерий Акаике (CorrectedAkaikeInformationCriterion (AICc). Значение AICc полезно при сравнении нескольких моделей. Например, требуется смоделировать оценки учеников с помощью различных наборов независимых переменных. В одной модели вы можете использовать только демографические переменные, а в другой — переменные, связанные со школой и классом, например затраты на каждого ученика и отношения числа учителей к числу учеников. Если зависимая переменная для всех сравниваемых моделей одна и та же (в этом случае это оценки учеников), вы можете использовать значения AICc из каждой модели для определения лучшей из них. Модель с меньшим значением AICc лучше соответствует реальным данным.

В заключение

Проходя все эти этапы создания правильной регрессионной модели, помните, что цель вашего анализа — понять ваши данные и использовать эти знания для решения задач и получения ответов на вопросы. Правда в том, что вы можете попробовать несколько моделей (с преобразованными переменными и без них), изучить несколько мелких областей, проанализировать поверхности коэффициентов и все равно не найти правильную модель OLS. Но, и это важно, вы все равно будете наращивать объем знаний о моделируемом явлении. Если созданная модель, которая, как вы думали, будет прекрасным предиктором, оказалась совсем неточной, это очень полезная информация. Если одна из переменных, о которой вы беспокоитесь, будет иметь строгие положительные отношения в одних областях и отрицательные отношения в других областях, то уже и это знание значительно улучшит ваше понимание проблемы. Выполняемая вами работа, попытка найти хорошую модель с помощью OLS и затем применение GWR для изучения региональных вариаций переменных в модели, всегда будет очень ценной.

  1. Типичные проблемы с регрессией и их решения

Серьезной преградой для многих регрессионных моделей является ошибка спецификации. Модель ошибки спецификации - это такая неполная модель, в которой отсутствуют важные независимые переменные, поэтому она неадекватно представляет то, что мы пытаемся моделировать или предсказывать (зависимую величину, у). Другими словами, регрессионная модель не рассказывает вам всю историю. Ошибка спецификации становится очевидной, когда в отклонениях вашей регрессионной модели наблюдается статистически значимая пространственная автокорреляция, или другими словами, когда отклонения вашей модели кластеризуются в пространстве (недооценки — в одной области изучаемой территории, а переоценки — в другой). Благодаря картографированию отклонений регрессии или коэффициентов, связанных с географически взвешенной регрессией, вы сможете обратить ваше внимание на какие-то нюансы, которые вы упустили ранее. Запуск Анализа горячих точек по отклонениям регрессии также может раскрыть разные пространственные режимы, которые можно моделировать при помощи метода наименьших квадратов с региональными показателями или исправлять с использованием географически взвешенной регрессии. Предположим, когда вы картографируете отклонения вашей регрессионной модели, вы видите, что модель всегда заново предсказывает значения в горах, и, наоборот, в долинах, что может значить, что отсутствуют данные о рельефе. Однако может случиться так, что отсутствующие переменные слишком сложны для моделирования или их невозможно подсчитать или слишком трудно измерить. В этих случаях, вы можете воспользоваться ГВР (географически взвешенной регрессией) или другой пространственной регрессией, чтобы получить хорошую модель.

В следующей таблице1 из приложения1. перечислены типичные проблемы с регрессионными моделями и инструменты в ArcGIS.

Важно протестировать модель на каждую из проблем, перечисленных выше. Результаты могут быть на 100 % неправильны, если игнорируются проблемы, упомянутые выше.

  1. Применения регрессионного анализа

Регрессионный анализ может использоваться в большом количестве приложений.

Моделирование числа поступивших в среднюю школу для лучшего понимания факторов, удерживающих детей в том же учебном заведении.

Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д., чтобы проинформировать полицию и снизить несчастные случаи.

Моделирование потерь от пожаров как функции от таких переменных как степень вовлеченности пожарных департаментов, время обработки вызова, или цена собственности. Если вы обнаружили, что время реагирования на вызов является ключевым фактором, возможно, существует необходимость создания новых пожарных станций. Если вы обнаружили, что вовлеченность - главный фактор, возможно, вам нужно увеличить оборудование и количество пожарных, отправляемых на пожар.

Существует три первостепенных причины, по которым обычно используют регрессионный анализ:

Смоделировать некоторые явления, чтобы лучше понять их и, возможно, использовать это понимание для оказания влияния на политику и принятие решений о наиболее подходящих действиях. Основная цель - измерить экстент, который при изменениях в одной или более переменных связанно вызывает изменения и в другой. Пример. Требуется понять ключевые характеристики ареала обитания некоторых видов птиц (например, осадки, ресурсы питания, растительность, хищники) для разработки законодательства, направленного на защиту этих видов.

Смоделировать некоторые явления, чтобы предсказать значения в других местах или в другое время. Основная цель - построить прогнозную модель, которая является как устойчивой, так и точной. Пример: Даны прогнозы населения и типичные погодные условия. Каким будет объем потребляемой электроэнергии в следующем году?

Мы также можем использовать регрессионный анализ для исследования гипотез. Предположим, что мы моделируете бытовые преступления для их лучшего понимания и возможно, нам удается внедрить политические меры, чтобы остановить их. Как только мы начинаем наш анализ, мы, возможно, имеем вопросы или гипотезы, которые мы хотим проверить:

"Теория разбитого окна" указывает на то, что испорченная  общественная собственность (граффити, разрушенные объекты и т.д.) притягивает  иные преступления. Имеется ли  положительное отношение между  вандализмом и взломами в квартиры?

Имеется ли связь между нелегальным использованием наркотических средств и взломами в квартиры (могут ли наркоманы воровать, чтобы поддерживать свое существование)?

Совершаются ли взломы с целью ограбления? Возможно ли, что будет больше случаев в домохозяйствах с большей долей пожилых людей и женщин?

Люди больше подвержены риску ограбления, если они живут в богатой или бедной местности?

Мы можем использовать регрессионный анализ, чтобы исследовать эти взаимосвязи.

 

ЗАКЛЮЧЕНИЕ

Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи. Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у и представляющая собой однофакторный корреляционный и регрессионный анализ.

Регрессионный анализ своей целью имеет вывод, определение (идентификацию) уравнения регрессии, включая статистическую оценку его параметров. Уравнение регрессии позволяет найти значение зависимой переменной, если величина независимой или независимых переменных известна. Ряд авторов считают корреляционный анализ частью регрессионного анализа, а другие полагают, что регрессионный анализ является частью корреляционного, как общей теории взаимосвязи между случайными величинами. Практически, речь идет о том, чтобы анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности, точно отражающую заключенную в этом множестве закономерность (тренд, тенденцию) - линию регрессии.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации заключаетсяв делении линией регрессии, множества на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.

Суть регрессионного анализа заключается в построении математической модели и определение ее статистической надежности. 
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Аверкин А.Н., Батыршин И.З., Блишун А.Ф. и др. Нечеткие множества в моделях управления и искусственного интеллекта // Под ред. Д.А. Поспелова. – М.: Наука, 1986. – 312 с.

2. Аветисян Д.О. Проблемы информационного поиска: (Эффективность, автоматическое кодирование, поисковые стратегии) - М.: Финансы и статистика, 1981. - 207 с.

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. Справочное издание. – М.: Финансы и статистика, 1983. – 472 с.

5. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей: Справочник. – М.: Финансы и статистика, 1985. – 182с.

6. Ван дер Варден Б.Л. Математическая статистика. – М.: Изд-во иностр. лит., 1960. – 302 с.

8. Гайдышев И.П. Анализ и обработка данных: специальный справочник. - СПб.: Питер, 2001. - 752 с.

9. Гмурман В.С. Теория вероятностей и математическая статистика. – М.: Высш. шк., 1972. – 368 с.

10. Голованов Е.А. Основы корреляционного и регрессионного анализа. - М.: Наука, 2005

11.  Калинина В.Н., Панкин В.Ф. Математическая статистика. – М.: Высш. шк., 2001. – 336 с.

12.  Кендалл М., Стьюарт А. Теория распределений. – М.: Наука, 1966 –566 с.

13.  Кендалл М., Стьюарт А. Статистические выводы и связи. – М.: Наука, 1973. – 899 с.

 

 

ПРИЛОЖЕНИЕ

Типичная проблема

Последствие

Решение

Ошибки спецификации относительно независимых переменных.

Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять.

Создайте карту и проверьте невязки МНК и коэффициенты ГВР или запустите анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных.

Нелинейные взаимосвязи.

МНК и ГВР - линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми - нелинейны, результирующая модель будет работать плохо.

Создайте диаграмму рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделите особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин. Альтернативно, используйте нелинейный метод регрессии.

Выбросы данных.

Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии.

Создайте диаграмму рассеянияи другие графики (гистограммы), чтобы проверить экстремальные значения данных. Скорректировать или удалить выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запустить регрессию с и без выбросов, чтобы оценить, как это влияет на результат.

Нестационарность. Вы можете обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B.

Если взаимосвязь между вашими зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты.

Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок. Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), у вас есть статистически значимая региональная вариация и вам необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструментаГеографически взвешенная регрессия.

Мультиколлинеарность. Одна или несколько независимых величин излишни.

Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели.

Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки.

Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений.

Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер.

Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет.

Пространственно автокоррелированные отклонения.

Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно.

Запустите инструмент Пространственная автокорреляция (SpatialAutocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели).

Нормальное распределение систематической ошибки.

Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны.

Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в вашей модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые вы моделируете, являются нелинейными. Проверьте карту отклонений и возможно карту с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Попробуйте найти на диаграмме нелинейности взаимосвязей.


 

 

 

 


Информация о работе Основы регрессионного анализа