Уравнение регрессии

Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 10:14, контрольная работа

Краткое описание

Для исследования стохастических связей широко используется метод сопоставления двух параллельных рядов, метод аналитических группировок, корреляционный анализ, регрессионный анализ и некоторые непараметрические методы. В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы (аналитического выражения) влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.

Вложенные файлы: 1 файл

СТАТИСТИКА ТЕОРИЯ.docx

— 67.80 Кб (Скачать файл)

ВВЕДЕНИЕ

 

Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной, ее можно принять за зависимую  переменную, «в среднем» изменяются в  зависимости от того, какие значения принимает другая переменная, рассматриваемая  как причина по отношению к  зависимой переменной. Действие данной причины осуществляется в условиях сложного взаимодействия различных  факторов, вследствие чего проявление закономерности затемняется влиянием случайностей. Вычисляя средние значения результативного признака для данной группы значений признака-фактора, отчасти  элиминируется влияние случайностей. Вычисляя параметры теоретической  линии связи, производится дальнейшее их элиминирование и получается однозначное (по форме) изменение «y» с изменением фактора «x». 
          Для исследования стохастических связей широко используется метод сопоставления двух параллельных рядов, метод аналитических группировок, корреляционный анализ, регрессионный анализ и некоторые непараметрические методы. В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы (аналитического выражения) влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.

 

 

 

 

ГЛАВА 1. УРАВНЕНИЕ  РЕГРЕССИИ: ТЕОРЕТИЧЕСКИЕ ОСНОВЫ

    1. Уравнение регрессии: сущность и типы функций

 

Регрессия (лат. regressio - обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886. 
 
Теоретическая линия регрессии - это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.  
 
Теоретическая линия регрессии должна отображать изменение средних величин результативного признака «y» по мере изменения величин факторного признака «x» при условии полного взаимопогашения всех прочих – случайных по отношению к фактору «x» - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была ба минимальной величиной. 
 
y=f(x) - уравнение регрессии - это формула статистической связи между переменными. 
 
Прямая линия на плоскости (в пространстве двух измерений) задается уравнением y=a+b*х. Более подробно: переменная y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную x. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом.  
 
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Вместе с тем теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи, возможности его изменения в исследуемой совокупности, правомерности использования линейной зависимости, возможного наличия экстремальных значений и т.п. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных. 
 
Приблизительно представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия регрессии обычно является ломанной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается неполностью, в силу недостаточно большого количества наблюдений, поэтому эмпирической линией связи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.  
Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей Наиболее часто для характеристики связей экономических показателей используют следующие типы функций: 
 
1.     Линейная:   
 
2.     Гиперболическая:  
 
3.     Показательная: 
 
4.     Параболическая:   
 
5.     Степенная:   
 
6.     Логарифмическая:  
 
7.     Логистическая:      [2, c.258] 
 
Модель с одной объясняющей и одной объясняемой переменными – модель парной регрессии. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.  
 
Для нахождения параметров а и b уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумка квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной. 
 
Критерий метода наименьших квадратов можно записать таким образом: 
 
 
 
или  
 
 
 
Следовательно, применение метода наименьших квадратов для определения параметров a и b прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум. [2, c.258] 
 
Относительно оценок можно сделать следующие выводы: 
 
1.     Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать. 
 
2.     Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии. 
 
3.     Эмпирическая прямая регрессии обязательно проходит через точку x, y. 
 
4.     Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений  . 
 
Графическое изображение эмпирической и теоретической линии связи представлено на рисунке 1. 
 
 
 
рис. 1.  
 
Параметр b в уравнении – это коэффициент регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «y»  при изменении факторного признака «x» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «x» (для уравнения  ). 
Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин «линейный регрессионный анализ» используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания  
неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится. Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома). Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

 

 

 

 

 

ГЛАВА 2 . МОДЕЛИ РЕГРЕССИИ

2.1. Парная линейная  регрессия

 

Можно выделить три основных класса моделей, которые применяются  для анализа и прогнозирования  экономических процессов: 
 
1.     модели временных рядов, 
 
2.     регрессионные модели с одним уравнением, 
 
3.     системы одновременных уравнений. 
 
Модель с одной объясняющей и одной объясняемой переменными – модель парной регрессии. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.  
 
Линейная регрессия представляет собой линейную функцию между условным математическим ожиданием   зависимой переменной Y и одной объясняющей переменной X: 
 

 
где   - значения независимой переменной в i-ом наблюбдении, i=1,2,…,n. Принципиальной является линейность уравнения по параметрам  ,  . Так как каждое индивидуальное значение   отклоняется от соответствующего условного математического ожидания, тогда вданную формулу необходимо ввести случайное слагаемое  , тогда получим: 
 
 
 
Данное соотношение называется теоретической линейной регрессионной моделью, а   и  - теоретическими параметрами (теоретическими коэффициентами) регрессии,  - случайным отклонением. Следовательно, индивидуальные значения   представляются в виде суммы двух компонент – систематической   и случайной   

 
 
Для определения значений теоретических  коэффициентов регрессии необходимо знать и использовать все значения переменных X и Yгенеральной совокупности, что невозможно. задачи регрессионного линейного анализа состоят в том, чтобы по имеющимся статистическим данным ( ), i=1,…,n для переменных X и Y: 
 
1.     получить наилучшие оценки неизвестных параметров   и   ; 
 
2.     проверить статистические гипотезы о параметрах модели; 
 
3.     проверить, достаточно ли хорошо модель согласуется со статистическими данными. 
 
Парная линейная регрессия - это причинная модель статистической связи линейной между двумя количественными переменными «x» и «у», представленная уравнением  , где х - переменная независимая, y - переменная зависимая. Коэффициент регрессии «b» и свободный член уравнения регрессии «a» вычисляются по формулам: 
 
 

где r - коэффициент линейной корреляции Пирсона для переменных x и y; sи s- стандартные отклонения для переменных x и y; x,y - средние арифметические для переменных x и y. 
 
Существуют два подхода к интерпретации коэффициента регрессии b. Согласно первому из них, b представляет собой величину, на которую изменяется предсказанное по модели значение ŷ= a + bxпри увеличении значения независимой переменной x на одну единицу измерения, согласно второй - величину, на которую в среднем изменяется значение переменной yпри увеличении независимой переменной x на единицу. На диаграмме рассеяния коэффициент b представляет тангенс угла наклона линии регрессии y = a + bx к оси абсцисс. Знак коэффициента регрессии совпадает со знаком коэффициента линейной корреляции: значение b>0 свидетельствует о прямой линейной связи, значение b < 0 - об обратной. Если b = 0, линейная связь между переменными отсутствует (линия регрессии параллельна оси абсцисс). 
 
Свободный член уравнения регрессии a интерпретируется, если для независимой переменной значение x = 0 имеет смысл. В этом случае y = a, если x = 0. Качество (объясняющая способность) уравнения парной линейной регрессии оценивается с помощью коэффициента детерминации. 
 
После построения уравнения регрессии необходима интерпретация и анализ, а также словесное описание полученных результатов с трактовкой найденных коэффициентов. 
 

 

 

 

 

2.2. Множественная  линейная регрессия 
 
На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная. В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи в конце концов становится невозможно представить графически. Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.  
 
Заданием множественного регрессионного анализа является построение такого уравнения прямой k-мерном пространстве, отклонение результатов наблюдений   от которой были бы минимальными. Используя для этого метод наименьших квадратов, получается система нормальных уравнений, которую можно представить и в матричной форме. 
 
Множественная линейная регрессия - причинная модель статистической связи линейной  между переменной зависимой  y и переменными независимыми  x1,x2,...,xk, представленная уравнением y = b1x+ b2x+ ... + bkx+ a = ∑ bix+ a . Коэффициенты b1,b2,...,bназываются нестандартизированными коэффициентами, а - свободным членом уравнения регрессии. Уравнение регрессии существует также в стандартизированном виде, когда вместо исходных переменных используются их z-оценки: z= ∑ βizi. Здесь z- z-оценка переменной у; z1,z2,...,z- z-оценки переменных x1,x2,...,xk; β12,...,β- стандартизированные коэффициенты регрессии (свободный член отсутствует). 
 
Для того чтобы найти стандартизированные коэффициенты, необходимо решить систему линейных уравнений: 
β+ r12β+ r13β+ ... + r1kβ= r1y
 
r21β+ β+ r23β+ ... + r2kβ= r2y
 
r31β+ r32β+ β+ ... + r3kβ= r3y
 
... 
 
rk1β+ rk2β+ rk3β+ ... + β= rky
 
в которой rij - коэффициенты линейной корреляции Пирсона для переменных xи xj; riy - коэффициент корреляции Пирсона для переменных xи y.  
Нестандартизированные коэффициенты регрессии вычисляются по формуле b= β∙ s/ si, где s- стандартное отклонение переменной y; s- стандартное отклонение переменной хi. Свободный член уравнения регрессии находится по формуле a = y - ∑ bixi, где y - среднее арифметическое переменной y, x- средние арифметические для переменных xi
В настоящее время используются два подхода к интерпретации нестандартизированных коэффициентов линейной регрессии bi. Согласно первому из них, bпредставляет собой величину, на которую изменится предсказанное по модели значение ŷ = ∑ bixпри увеличении значения независимой переменной xна единицу измерения; согласно второму - величину, на которую в среднем изменяется значение переменной y при увеличении независимой переменной xна единицу. Значения коэффициентов bсущественно зависят от масштаба шкал, по которым измеряются переменные yи xi, поэтому по ним нельзя судить о степени влияния независимых переменных на зависимую. Свободный член уравнения регрессии a равен предсказанному значению зависимой переменной ŷ в случае, когда все независимые переменные x= 0.  
 
Стандартизированные коэффициенты βявляются показателями степени влияния независимых переменных xна зависимую переменную y. Они интерпретируются как "вклад" соответствующей независимой переменной в дисперсию (изменчивость) зависимой переменной. 
Качество (объясняющая способность) уравнения множественной линейной регрессии измеряется коэффициентом множественной детерминации, который равен квадрату коэффициента корреляции множественной  R². 
Предполагается, что все переменные  в уравнении множественной линейной регрессии являются количественными. При необходимости включить в модель номинальные переменные используется техника dummy-кодирования. 

 

 

 

 

 

 

 

 

 

 

 

 

ЗАКЛЮЧЕНИЕ

 
         При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них. Анализируя сущность уравнения регрессии, следует отметить следующие положения. Изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся экономических данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции. 
Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл. Нельзя подставлять в уравнение регрессии такие значения факторов, которые значительно отличаются от представленных. Рекомендуется не выходить за пределы одной трети размаха вариации параметра как за максимальное, так и за минимальное значения фактора.

 

 

 

 

 

СПИСОК  ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

 
 
1.     Елисеева И.И., Юзбашев М.М. Общая теория статистики. – Москва: Финансы и статистика, 2004. – 656с. 
 
2.     Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. – М.: Инфра-М, 2004. – 416с. 
 
3. Общая теория статистики/ под ред. О.Э. Башиной, А.А. Спирина.– М.: Финансы и статистика, 2005. – 440с. 
 
4.     Сизова Т.М. Статистика. -  СПб.: СПбГУ ИТМО, 2005. - 190 с. 
 
5.     Теория статистики/ под ред. Г.Л.Громыко. – М.: Инфра-М, 2005. – 476с. 
 
6.     Теория статистики/ под ред. Р.А.Шмойловой. – М.: Финансы и статистика, 2009. –656с. 
 
7.     Корреляционный и регрессионный анализ// http://dvo.sut.ru/libr/opds/i130hod2/7.htm 
 
8.     Множественная регрессия// http://www.statsoft.ru/home/textbook/modules/stmulreg.html#cthe 
 
9.     Регрессия// http://ru.science.wikia.com/wiki/%D0%A0%D 
 
10. Регрессионный анализ// http://www.kgafk.ru/kgufk/html/korandreg3.html 
 
11. Статистический анализ данных, моделирование и прогноз// http://miit.bsu.edu.ru/resources/inf/excel/excel06.htm 
 
12. Статистический анализ числовых величин и непараметрические методы. Парная регрессия// http://www.e-college.ru/xbooks/xbook019/book/index/index.html?go=part-005*page.htm

 

 

 


Информация о работе Уравнение регрессии