Матричное представление множественной регрессионной модели. Оценивание параметров множественной регрессии методом наименьших квадратоd

Автор работы: Пользователь скрыл имя, 13 Января 2013 в 12:17, курсовая работа

Краткое описание

Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины.

Содержание

Введение 3
1. Понятие регрессии 4
2. Регрессионный анализ 5
3. Множественная регрессия 6
4. Предположения и ограничения множественной регрессии 13
5. Матричное представление множественной регрессионной модели 15
6. Оценивание параметров множественной регрессии методом наименьших квадратов 16
Заключение 19

Вложенные файлы: 1 файл

10 Матричное представление регрессионной модели.doc

— 170.50 Кб (Скачать файл)

Ожидаемый доход = 50000 +100 х 110 + 950 х 20 = 80000 руб.

Метод множественной  регрессии очень популярен среди  социологов. При интерпретации результатов множественной регрессии стандартизованные коэффициенты, используют в качестве показателей значимости, “вклада” соответствующих переменных. Эта трактовка верна лишь в определенных пределах. При нарушении некоторых условий сравнение абсолютных величин стандартизованных коэффициентов может вести к неверным выводам. Дело в том, что коэффициенты регрессии подвержены влиянию случайных ошибок измерения. Использование ненадежных индикаторов “сдвигает” регрессионные коэффициенты к нулю. Иными, словами, более надежные индикаторы дают более высокие оценки коэффициентов. Пусть, например, для предсказания риска сердечно - сосудистых заболеваний использовались две независимые переменные индивидуального уровня — “ориентация на достижения” и “склонность подавлять агрессию”, — причем шкала для измерения первой обладала более высоким коэффициентом надежности. Если стандартизованный коэффициент регрессии для мотивации окажется выше, чем для подавления агрессии, это может рассматриваться как следствие таких содержательных различий между переменными, которые важны с точки зрения теории психосоциальных факторов заболеваемости. Но нельзя исключить и альтернативное объяснение, связывающее более высокий регрессионный коэффициент первой переменной с побочными эффектами методов измерения: влияние ориентации на достижения не превосходит влияния, оказываемого на риск инфаркта склонностью подавлять агрессию, а наблюдаемые различия регрессионных коэффициентов связаны лишь с ненадежностью использованных индикаторов склонности к подавлению.

Другая проблема, требующая некоторой осторожности в интерпретации коэффициентов  регрессии, возникает вследствие того, что модель множественной регрессии не обязывает нас ни к каким строгим предположениям о причинных связях между независимыми переменными. Регрессионное уравнение, не делает никаких различий между собственно независимыми, т. е. теоретически специфицированными, переменными и дополнительными — контрольными, опосредующими и т.п.— факторами, вводимыми в модель с целью уточнения. В тех случаях, когда теоретическая гипотеза, проверяемая в ходе исследования, допускает: 1) существование взаимосвязей между независимыми переменными, 2) наличие прямых и косвенных (опосредованных) влияний, а также 3) использование нескольких индикаторов для каждого латентного фактора, могут понадобиться более совершенные статистические методы. Одна из возможностей здесь — это использование путевого анализа.

Путевой анализ — один из основных способов построения и проверки причинных моделей  в социологии. Многие более продвинутые  статистические техники основаны на сходной исследовательской методологии.

Важным достоинством путевого анализа является то, что он позволяет оценить параметры каузальных моделей, причем в расчет принимаются не только прямые, но и непрямые (опосредованные) влияния.

Путевой анализ включает в себя технику представления  прямых и косвенных причинных  влияний при помощи специальных диаграмм (потоковых графов). Эти диаграммы часто называют просто причинными (структурными) моделями.

Последовательно “считывая” такую модель, можно  легко определить все пути влияния  одной переменной на другую и соответственно оценить величину чистого эффекта. Во многих разделах этой книги причинные модели уже использовались для представления сравнительно сложных причинных гипотез, поэтому общая логика их построения не требует детального обсуждения. Порядок представления переменных на диаграмме отражает предполагаемое направление причинной связи, а диапазон включенных в диаграмму переменных и отношения между ними зависят от принятых исследователем теоретических гипотез. Так называемые путевые коэффициенты, описывающие связи между переменными (связям соответствуют стрелочки на диаграмме), равны стандартизованным коэффициентам множественной регрессии (b*).

Обычно путевую  диаграмму рисуют слева направо  — от самых «ранних» по порядку следования независимых переменных до зависимой. Путевые коэффициенты часто обозначают латинскими «p» с подстрочными индексами (р21 — это путевой коэффициент для связи между переменными Х1 ® Х2).

В общем случае, полный эффект влияния переменной равен  сумме ее непосредственного эффекта  и всех косвенных эффектов влияния. Величины возмущений (е2 — е4) позволяют оценить, насколько хорошо работает модель, показывая, какая часть дисперсии соответствующей переменной осталась необъясненной. В результате путевой анализ позволяет пересматривать и уточнять исходную теоретическую модель, сравнивать «эффективность» нескольких конкурирующих теорий для объяснения существующей совокупности эмпирических наблюдений. Существуют даже компьютерные программы, осуществляющие автоматический поиск наилучшей структурной модели, т.е. процедуру, сходную с отбором из нескольких существующих теорий такой, которая максимально соответствовала бы полученным в исследовании данным. Важно, однако, осознавать, что сами по себе результаты применения регрессионных методов и причинных моделей (регрессионные коэффициенты, линии регрессии, путевые диаграммы) решают прежде всего задачу обобщенного описания уже полученных эмпирических данных. Они могут служить надежной основой для интерполяции, оценки положения гипотетических «точек» в пределах ряда наблюдавшихся значений, однако их использование в целях экстраполяции и прогноза может вести к существенным ошибкам в тех случаях, когда такой прогноз не подкреплен более широкой теорией, не сводимой к отдельной модели для конечной совокупности данных. (Достаточно указать в качестве примера на многочисленные ошибочные прогнозы в экономике — науке, где количество эмпирических данных и описывающих их структурных моделей многократно превзошло количество существующих теорий).

Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Предположения и ограничения  множественной регрессии

 

4.1 Предположения линейности

Прежде всего, как это видно уже из названия множественной линейной регрессии, предполагается, что связь между переменными является линейной. На практике это предположение, в сущности, никогда не может быть подтверждено. Всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.

4.2 Предположение нормальности

В множественной  регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально (т.е. подчиняются закону нормального распределения). И снова, хотя большинство тестов (в особенности F-тест) довольно робастны (устойчивы) по отношению к отклонениям от этого предположения, всегда, прежде чем сделать окончательные выводы, стоит рассмотреть распределения представляющих интерес переменных. Вы можете построить гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.

4.3 Ограничения множественной регрессии

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные (causal) связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.

 

4.4 Выбор числа переменных

Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Это происходит из-за того, что извлекается выгода из случайностей, возникающих при простом включении возможно большего числа переменных, рассматриваемых в качестве предикторов другой, представляющей интерес переменной. Эта проблема возникает тогда, когда к тому же и число наблюдений относительно мало. Интуитивно ясно, что едва ли можно делать выводы из анализа вопросника со 100 пунктами на основе ответов 10 респондентов. Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений (респондентов) на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование.

 

 

 

 

 

 

 

 

 

 

 

 

5. Матричное представление множественной  регрессионной модели

В матричной  форме регрессионная модель имеет  вид Y=Xβ+ε.

Где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у1, у2,.... уn); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ..., k; x0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора εi не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mεi = 0) и неизвестной постоянной σ2 (Dεi = σ2).

На практике рекомендуется, чтобы значение п  превышало k не менее чем в три  раза.

Матричная форма  записи множественной регрессии:

 В первом  столбце матрицы Х указываются  единицы при наличии свободного члена в модели . Здесь предполагается, что существует переменная x0, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается  в нахождении по выборке объемом  п оценки неизвестных коэффициентов  регрессии β0, β1, …, βk модели или вектора β.

Так как в  регрессионном анализе хj рассматриваются  как неслучайные величины, a Mεi = 0, то согласно (53.8) уравнение регрессии  имеет вид:

Ỹì=β0+β1*xì1+...+βȷ*xìȷ+..βk*xìk

для всех i = 1, 2, ..., п, или в матричной форме:

Ỹ=Xβ

где — вектор-столбец с элементами  1..., i,..., n.

6. Оценивание параметров множественной регрессии методом наименьших квадратов

 

На диаграмме  рассеяния имеется независимая  переменная или переменная X и зависимая  переменная Y. Эти переменные могут, например, представлять коэффициент IQ (уровень интеллекта, оцененный с помощью теста) и достижения в учебе (средний балл успеваемости - grade point average; GPA) соответственно. Каждая точка на диаграмме представляет данные одного студента, т.е. его соответствующие показатели IQ и GPA. Целью процедур линейной регрессии является подгонка прямой линии по точкам. А именно, программа строит линию регрессии так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому на эту общую процедуру иногда ссылаются как на оценивание по методу наименьших квадратов.

Делается это  с помощью метода наименьших квадратов, когда минимизируется сумма квадратов  отклонений реально наблюдаемых Y от их оценок  (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M — объём  выборки). Этот подход основан  на том известном факте, что  фигурирующая в приведённом выражении  сумма принимает минимальное  значение именно для того случая, когда Y = y(x1,x2,...xN).

Для решения  задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная  система является системой N + 1 линейных уравнений с N + 1 неизвестными b0...bN

Если представить  свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части  матрицей

то получаем матричное уравнение: X=AxB, которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова).

Параметры bi являются частными коэффициентами корреляции; (bi)2 интерпретируется как доля дисперсии Y, объяснённая Xi, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад Xi в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о  нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым  переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида X1X2, X1X2X3, свидетельствующее о наличии взаимодействий между признаками X1, X2 и т. д.

Чем меньше разброс  значений остатков около линии регрессии  по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).

Информация о работе Матричное представление множественной регрессионной модели. Оценивание параметров множественной регрессии методом наименьших квадратоd