Парная регрессия и корреляция

Автор работы: Пользователь скрыл имя, 22 Января 2014 в 10:19, контрольная работа

Краткое описание

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.
Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.

Вложенные файлы: 1 файл

Эконометрика 327з.doc

— 2.23 Мб (Скачать файл)

Если в линейной модели и моделях, нелинейных по переменным, при оценке параметров исходят из критерия , то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а к их преобразованным величинам, т. е. , . Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений логарифмов:

. (23)

Соответственно, если в  линейных моделях и моделях, нелинейных по переменным, , то в моделях, нелинейных по оцениваемым параметрам,  , а . Вследствие этого оценка параметров с помощью МНК для нелинейных моделей, внутренне линейных, оказывается несколько смещенной.

В отдельных случаях  может использоваться так называемая обратная функция: , являющаяся разновидностью гиперболы. Но если в равносторонней гиперболе , преобразованию подвергается объясняющая переменная и , то для получения линейной формы зависимости в обратной модели преобразовывается у: . Тогда модель обратной зависимости принимает вид: .

Обратная модель является внутренне линейной по параметрам. Требование МНК при этом выполняется для обратных значений результативного признака – , а именно: .

Поскольку уравнение  обратной функции линейно относительно величин , то, если обратные значения имеют экономический смысл, коэффициент регрессии интерпретируется так же, как в линейном уравнении регрессии. Если, например, под у подразумеваются затраты на рубль продукции, а под х – производительность труда (выработка продукции на одного работника), то обратная величина характеризует затратоотдачу, и параметр b имеет экономическое содержание – средний прирост продукции в стоимостном измерении на 1 руб. затрат с ростом производительности труда на единицу своего измерения.

1.3. Коэффициент эластичности как  
характеристика силы связи фактора с результатом

Коэффициент эластичности представляет собой показатель силы связи фактора x с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1 %. Коэффициент эластичности (Э) рассчитывается как относительное изменение у на единицу относительного изменения x:

. (24)

Различают обобщающие (средние) и точечные коэффициенты эластичности.

Обобщающий  коэффициент эластичности рассчитывается для среднего значения : и показывает, на сколько процентов изменится у относительно своего среднего уровня при росте х на 1 % относительно своего среднего уровня.

Точечный  коэффициент эластичности рассчитывается для конкретного значения х = х0: и показывает, на сколько процентов изменится у относительно уровня у(х0) при увеличении х на 1% от уровня х0.

В зависимости  от вида зависимости между х и у формулы расчета коэффициентов эластичности будут меняться. Основные формулы приведены в табл. 2.

Таблица 2

Вид функции  

Точечный  
коэффициент эластичности

Средний коэффициент  эластичности

Линейная  

Парабола 

Равносторонняя гипербола

Степенная

Показательная

Полулогарифмическая  
у = a + b ∙ lnx


Только для  степенных функций коэффициент эластичности представляет собой постоянную независящую от х величину (равную в данном случае параметру b). Именно поэтому степенные функции широко используются в эконометрических исследованиях. Параметр b в таких функциях имеет четкую экономическую интерпретацию – он показывает процентное изменение результата при увеличении фактора на 1 %. Так, если зависимость спроса у от цен p характеризуется уравнением вида: , то, следовательно, с увеличением цен на 1 % спрос снижается в среднем на 1,5 %.

Несмотря  на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, бессмысленно определять, на сколько процентов изменится заработная плата с ростом возраста рабочего на 1%. В такой ситуации степенная функция, даже если она оказывается наилучшей по формальным соображениям (исходя из наибольшего значения R2), не может быть экономически интерпретирована.

1.4. Анализ гетероскедастичности

В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хi остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность (рис. 1).

Гомоскедастичность  остатков означает, что дисперсия  остатков ei одинакова для каждого значения х.


 

 

 

 

 

 

 

 

Гетероскедастичность будет сказываться  на уменьшении эффективности оценок bi. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатков для любых значений фактора.

Рассмотрим тесты, которые позволяют провести анализ модели на гомоскедастичность.

При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест, который включает в себя следующие шаги:

  1. Упорядочение п наблюдений по мере возрастания переменной х.
  2. Исключение из рассмотрения С центральных наблюдений; при этом (п - С)/2 > р, где р - число оцениваемых параметров.

Из экспериментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 – соответственно С = 16.

  1. Разделение совокупности из (п - С) наблюдений на две группы (соответственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.
  2. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R = S1/S2, где  
    S1 > S2.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию с (п-С-2р)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Критерий Гольдфельда-Квандта используется и при проверке остатков множественной регрессии на гетероскедастичность.

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки ei коррелированы со значениями фактора хi. Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

, (25)

где d - абсолютная разность между рангами значений хi и |ei|.

Статистическую значимость r можно оценить с помощью  
t-критерия:

. (26)

Сравнив эту величину с табличной величиной  при a = 0,05 и числе степеней свободы (п - m). Принято считать, что если tr > ta, то корреляция между ei и хi статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гeтероскедастичности остатков.

Рассмотренные критерии не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др.

Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора e2 = а+ bx + cx2 + u, или при наличии факторов:

e2 = a + b1x1 + b11

+ b2x2 + b22
+ b12x1x2 + … + bpxp + bpp

+ b1px1xp + b2px2xp + … + u.

Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку  каждый параметр модели = f(хi) должен быть рассчитан на основе достаточного числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по 30 наблюдениям как yi = a + b1x + ei, то последующая квадратичная функция для остатков может быть представлена лишь как

e2 = а + b1x + b11х2 + u,

поскольку на каждый параметр при х должно приходиться не менее 6-7 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете Econometric Views. О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F-критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. В противном случае (Fфакт < Fтабл) делается вывод об отсутствии гeтероскедастичности остатков регрессии.

Тест  Парка также относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функций ln e2 = а + b ln х + и. Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии для уравнения lne2 окажется статистически значимым, то, следовательно, существует зависимость lne2 от lnх, т.е. имеет место гетероскедастичность остатков.

Если тесты Уайта и Парка предназначены для оценки гетероскедастичности для квадрата остатков e2, то тест Глейзера основывается на регрессии абсолютных значений остатков |e|, т.е. рассматривается функция |ei| = а + b + иi. Регрессия |ei| от хi строится при разных значениях параметра с, и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение t-критерия Стьюдента или F-критерия Фишера и R2.

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов (см. ниже).

2. Множественная регрессия и корреляция

2.1. Нормальная линейная модель  множественной регрессии

Естественным обобщением линейной регрессии с двумя переменными является многомерная регрессионная модель (multiple regression model) или модель множественной регрессии:

 (27)

где уi – значение признака-результата (зависимой переменной) для i-го наблюдения; хji – значение j-го фактора (независимей или объясняющей переменной) (j = 1;т) для i-го наблюдения; ei – случайная составляющая результативного признака для i-го наблюдения; b0 – свободный член, который формально показывает среднее значение у при х1 = х2 = ... =  
= хт = 0; bj – коэффициент «чистой» регрессии при j-м факторе (j=1,m).

Коэффициент регрессии  характеризует среднее изменение  признака-результата у с изменением соответствующего фактора хj. на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях.

Обычно для многомерной  регрессионной модели делаются следующие предпосылки.

1. – детерминированные (нестохастические) переменные.

  1. , (i = 1, n) – математическое ожидание случайной составляющей равно 0 в любом наблюдении.
  2. , (i = 1, n) – теоретическая дисперсия случайной составляющей; постоянна для всех наблюдений.
  3. – отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях.
  4. Часто добавляется условие: , т. е. ei – нормально распределенная случайная величина.

Информация о работе Парная регрессия и корреляция