Матричное представление множественной регрессионной модели. Оценивание параметров множественной регрессии методом наименьших квадратоd

Автор работы: Пользователь скрыл имя, 13 Января 2013 в 12:17, курсовая работа

Краткое описание

Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины.

Содержание

Введение 3
1. Понятие регрессии 4
2. Регрессионный анализ 5
3. Множественная регрессия 6
4. Предположения и ограничения множественной регрессии 13
5. Матричное представление множественной регрессионной модели 15
6. Оценивание параметров множественной регрессии методом наименьших квадратов 16
Заключение 19

Вложенные файлы: 1 файл

10 Матричное представление регрессионной модели.doc

— 170.50 Кб (Скачать файл)

 


МИНОБРНАУКИ РОССИИ

 

Государственное образовательное учреждение

высшего профессионального  образования

Санкт-Петербургский  государственный технологический  институт

(технический  университет)


Кафедра бизнес-информатики


 

 

 

 

 

 

РЕФЕРАТ

ПО АНАЛИЗУ ДАННЫХ

Матричное представление множественной регрессионной модели. Оценивание параметров множественной регрессии методом наименьших квадратов.

 

 

 

 

Выполнил студент:

Шапулова Алина  Сергеевна

Специальность № 619зсб 080500

 

Руководитель:

Москвичева  Анастасия Игоревна


 

кандидат экономических  наук

 

старший преподаватель  кафедры бизнес-информатики

 

Оценка ___________________

 

 

 

 

 

Санкт-Петербург

2012

Содержание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Регрессионная модель есть функция независимой  переменной и параметров с добавленной  случайной переменной. Параметры  модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Регрессионное уравнение, образно говоря, не делает никаких различий между собственно независимыми, переменными и дополнительными — контрольными, опосредующими и т.п.— факторами, вводимыми в модель с целью уточнения. В тех случаях, когда теоретическая гипотеза, проверяемая в ходе исследования, допускает существование взаимосвязей между независимыми переменными, наличие прямых и косвенных (опосредованных) влияний, а также использование нескольких индикаторов для каждого латентного фактора, могут понадобиться более совершенные статистические методы. Одна из возможностей здесь — это использование путевого анализа.

Важным достоинством путевого анализа является то, что он позволяет оценить параметры каузальных моделей, причем в расчет принимаются не только прямые, но и непрямые (опосредованные) влияния.

Путевой анализ, как и множественная регрессия, сегодня является частью большинства стандартных статистических программ для компьютера. Не стоит, однако, забывать о том, что при любом уровне прогресса в компьютерном обеспечении задать причинную модель, т.е. совокупность содержательных гипотез, подлежащих статистическому оцениванию, может только сам исследователь.

1. Понятие регрессии

Регрессия — зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин (в последнем случае — имеем множественную Р.).

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека, при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

 Следовательно,  при регрессионной связи одному и тому же значению x величины X могут соответствовать разные случайные значения величины Y. Распределение этих значений называется условным распределением Y при данном X = x.

Уравнение, связывающее  эти величины, называется уравнением Р., а соответствующий график — линией Р. величины Y по X. Уравнение Р. (в линейной форме) для одного фактора (“объясняющей” переменной):

Y = a0 + a1x.

Здесь a0, a1 —  параметры, которые оцениваются  из статистических данных. Они называются коэффициентами регрессии.

В случае же совместного  влияния на Y нескольких факторов (x1, x2, ..., xn) уравнение принимает вид

Y = a0 + a1x1 + ... + anxn.

В первом случае имеем парную Р., во втором — множественную.

2. Регрессионный анализ

Регрессионный (линейный) анализ — статистический метод исследования зависимости между зависимой переменной Y и одной или несколькими независимыми переменными X1,X2,...,Xp. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость, а не причинно-следственные отношения.

Цели регрессионного анализа:

1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).

2. Предсказание значения зависимой переменной с помощью независимой.

3. Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения  наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Коэффициент корреляции показывает направленность и силу взаимосвязи между двумя переменными. Значения коэффициента корреляции:

- Близкие к  0 – свидетельствуют об отсутствии  линейной взаимосвязи

- Близкие к  (+1) – о сильной прямой взаимосвязи

- Близкие к  (–1) – о сильной обратной взаимосвязи

 

 

 

 

 

 

3. Множественная регрессия

Множественная регрессия - статистическая процедура  изучения зависимости, существующей между  зависимой переменной и несколькими независимыми переменными.

Общее назначение множественной состоит в анализе  связи между несколькими независимыми переменными (называемыми также  регрессорами или предикторами) и  зависимой переменной. Например, агент  по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем "привлекательность" дома (субъективная оценка). Могли бы также обнаружиться и "выбросы", т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.

Уравнение множественной  регрессии — это определенная модель порождения данных. Важные допущения, принимаемые в этой модели, касаются уже известного вам требования линейности, а также аддитивности суммарного эффекта независимых переменных. Последнее означает, что воздействия разных независимых переменных просто суммируются, а не, скажем, перемножаются (мультипликативный эффект, в отличие от аддитивного, имеет место тогда, когда величина воздействия одной независимой переменной на зависимую, в свою очередь, находится под влиянием другой независимой переменной, т. е. независимые переменные взаимодействуют друг с другом).

Специалисты по кадрам обычно используют процедуры множественной  регрессии для определения вознаграждения адекватного выполненной работе. Можно определить некоторое количество факторов или параметров, таких, как "размер ответственности" (Resp) или "число подчиненных" (No_Super), которые, как ожидается, оказывают влияние на стоимость работы. Кадровый аналитик затем проводит исследование размеров окладов (Salary) среди сравнимых компаний на рынке, записывая размер жалования и соответствующие характеристики (т.е. значения параметров) по различным позициям. Эта информация может быть использована при анализе с помощью множественной регрессии для построения регрессионного уравнения в следующем виде:

Salary = .5*Resp + .8*No_Super

Как только эта  так называемая линия регрессии  определена, аналитик оказывается в  состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.

Множественная регрессия во многом аналогична простой  регрессии. Отличие состоит в том, что регрессия осуществляется по двум и более независимым переменным одновременно, причем каждая из них входит в регрессионное уравнение с коэффициентом, позволяющим предсказать значения зависимой переменной с минимальным количеством ошибок (критерием здесь снова является метод наименьших квадратов). Частные коэффициенты в уравнении множественной регрессии показывают, какой будет величина воздействия соответствующей независимой переменной на зависимую при контроле влияния других независимых переменных. Если воспользоваться простейшей системой обозначений, то уравнение множественной регрессии для трех независимых переменных можно записать как: где — это предсказываемое значение зависимой переменной, X1 ... Х3 — независимые переменные, а b1, ... b3 — частные коэффициенты регрессии для каждой из зависимых переменных.

Коэффициенты b могут быть интерпретированы как  показатели влияния каждой из независимых  переменных на зависимую при контроле всех других независимых переменных в уравнении. В отличие от коэффициентов  частной корреляции коэффициенты регрессии  обладают размерностью. Они показывают, на сколько единиц изменится зависимая переменная при увеличении независимой на одну единицу (при контроле всех остальных переменных модели). Пусть, например, мы построили уравнение множественной регрессии, описывающее зависимость дохода от интеллекта (X1) и стажа работы (Х2). Если величина b1 оказалась равной 100, это означает, что каждый дополнительный балл по шкале интеллекта увеличивает доход на 100 рублей. Значение b2 = 950 говорит нам, что год стажа прибавляет 950 рублей. Однако “сырые” оценки интеллекта и стажа измерены в разных единицах. Для определения сравнительной значимости независимых переменных, входящих в уравнение множественной регрессии, мы должны подвергнуть все переменные стандартизации (т. е. перевести их в Z-оценки, см. выше). Стандартизованные коэффициенты множественной регрессии, которые удобнее всего обозначать как b* (либо греч. «бета» — b ), меняются в пределах от - 1,0 до +1,0. Они сохраняют свою величину при изменении масштаба шкалы: переход от измерения возраста в годах к измерению в днях не изменит соответствующий b*.

Регрессионные коэффициенты (или B-коэффициенты) представляют независимые  вклады каждой независимой переменной в предсказание зависимой переменной. Другими словами, переменная X1, к  примеру, коррелирует с переменной Y после учета влияния всех других независимых переменных. Этот тип корреляции упоминается также под названием частной корреляции (этот термин был впервые использован в работе Yule, 1907). Вероятно, следующий пример пояснит это понятие. Кто-то мог бы, вероятно, обнаружить значимую отрицательную корреляцию в популяции между длиной волос и ростом (невысокие люди обладают более длинными волосами). На первый взгляд это может показаться странным; однако, если добавить переменную Пол в уравнение множественной регрессии, эта корреляция, скорее всего, исчезнет. Это произойдет из-за того, что женщины, в среднем, имеют более длинные волосы, чем мужчины; при этом они также в среднем ниже мужчин. Таким образом, после удаления разницы по полу посредством ввода предиктора Пол в уравнение, связь между длиной волос и ростом исчезает, поскольку длина волос не дает какого-либо самостоятельного вклада в предсказание роста помимо того, который она разделяет с переменной Пол. Другими словами, после учета переменной Пол частная корреляция между длиной волос и ростом нулевая. Иными словами, если одна величина коррелирована с другой, то это может быть отражением того факта, что они обе коррелированы с третьей величиной или с совокупностью величин.

Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как это было показано ранее на диаграмме рассеяния). Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.

Стандартизованные коэффициенты позволяют оценить  “вклад” каждой из переменных-предикторов  в предсказание значений независимой переменной. Если в примере с влиянием интеллекта и стажа работы на доход окажется, что b1* = 0,25, а b2* = 0,30, то можно заключить, что сравнительная значимость “веса” интеллекта и стажа в предсказании дохода различаются незначительно. Если же для одной переменной b1* = 0,80, тогда как b2* = 0,40, мы можем сказать, что эффект воздействия второй переменной в два раза меньше эффекта первой.

Чтобы определить ожидаемые  значения зависимой переменной для  отдельных индивидов, достаточно подставить в уравнение множественной регрессии соответствующие значения переменных-предикторов и вычисленных коэффициентов b. Пусть, например, мы хотим рассчитать прогнозное значение величины дохода для человека, чей коэффициент интеллекта равен 110, а стаж работы — 20 годам. Если b1, как в вышеприведенном примере, составляет 100, b2 = 950, а слагаемое а = 50000, то мы получим:

Информация о работе Матричное представление множественной регрессионной модели. Оценивание параметров множественной регрессии методом наименьших квадратоd