Парный линейный регрессионный анализ

Автор работы: Пользователь скрыл имя, 05 Апреля 2014 в 09:30, контрольная работа

Краткое описание

С использованием надстройки «Анализ данных» в Excel требуется выполнить этапы регрессионного анализа и интерпретировать полученные результаты:
Найти линейное уравнение регрессии y=a+bx.
Построить график рассеяния и линию регрессии на одном рисунке.
Вычислить предсказанные значения y, остатки и стандартные остатки.

Вложенные файлы: 1 файл

1 контр.docx

— 586.75 Кб (Скачать файл)

Задание

С использованием надстройки «Анализ данных» в Excel требуется выполнить этапы регрессионного анализа и интерпретировать полученные результаты:

  1. Найти линейное уравнение регрессии  y=a+bx.
  2. Построить график рассеяния и линию регрессии на одном рисунке.
  3. Вычислить предсказанные значения y, остатки и стандартные остатки.
  4. Вычислить коэффициенты корреляции и детерминации.
  5. Вычислить  стандартную ошибку оценки результативного признака и среднюю ошибку аппроксимации.
  6. Исследовать значимость коэффициента корреляции по критерию Стьюдента при 5% уровне значимости.
  7. Исследовать значимость коэффициента детерминации по критерию Фишера.
  8. Исследовать значимость коэффициентов  уравнения регрессии по критерию Стьюдента.
  9. Оценить доверительные интервалы для коэффициентов уравнения регрессии.
  10. Оценить доверительные интервалы для коэффициентов корреляции и детерминации.

Данные

1

2

3

4

5

4.8

2.6

5

0.4

1.3

4

4.1

2.9

5.9

5.5


 

 

Решение

1. Найдем уравнения линейной регрессии   для данных:

1

2

3

4

5

4.8

2.6

5

0.4

1.3

4

4.1

2.9

5.9

5.5


Составим таблицу вспомогательных величин:

1

4.8

4

19.2

23.04

16

2

2.6

4.1

10.66

6.76

16.81

3

5

2.9

14.5

25

8.41

4

0.4

5.9

2.36

0.16

34.81

5

1.3

5.5

7.15

1.69

30.25

14.1

22.4

53.87

56.65

106.28


 

Вычислим коэффициенты   и   уравнения линейной регрессии   по формулам:

 

 

Итак, искомое уравнение линейной регрессии имеет вид:  .

 

2. Построим график  рассеяния и линию регрессии.

 

3. Вычислим предсказанные значения y, остатки и стандартные остатки.

4. Вычислим коэффициенты корреляции и детерминации.

следовательно, т.е. в 86.36 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая.

Для оценки значимости параметров регрессии и корреляции сначала:

– найдём   средний: 

– составим таблицу вспомогательных величин, где  

 

1

4.8

4

3.3899

1.98

3.9204

0.6101

0.3723

0.1525

2

2.6

4.1

4.6011

−0.22

0.0484

−0.5011

0.2511

0.1222

−1.1113

1.2349

3

5

2.9

3.2798

2.18

4.7524

−0.3798

0.1442

0.131

0.1214

0.0147

4

0.4

5.9

5.8124

−2.42

5.8564

0.0876

0.0077

0.0149

0.4674

0.2184

5

1.3

5.5

5.3169

−1.52

2.3104

0.1831

0.0335

0.0333

0.0955

0.0091

16.888

0.8088

0.4539

1.4772


 

5. Вычислим  стандартную ошибку оценки результативного признака и среднюю ошибку аппроксимации.

Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.

Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. 
(a + bxp ± ε) 
где 
tкрит (n-m-1;α/2) = (3;0.025) = 3.182

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 3 
 
(6.03 -0.55*3 ± 0.74) 
(3.64;5.12)

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Средняя ошибка аппроксимации:

6. Исследуем значимость коэффициента корреляции по критерию Стьюдента при 5% уровне значимости.

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия

tнабл = rxy n-2;1 - r2xy

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.

tнабл = 0.93 3;1 - 0.932 = 6.05

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=3 находим tкрит:

tкрит (n-m-1;α/2) = (3;0.025) = 3.182

где m = 1 - количество объясняющих переменных.

Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически – значим.

 

7. Исследуем значимость коэффициента детерминации по критерию Фишера.

Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой. 
 
где m – число факторов в модели. 
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая  гипотеза о том, что уравнение  в целом статистически незначимо: H0: R2=0 на уровне значимости α.

2. Далее определяют фактическое  значение F-критерия: 
 
 
где m=1 для парной регрессии.

3. Табличное значение  определяется по таблицам распределения  Фишера для заданного уровня  значимости, принимая во внимание, что число степеней свободы  для общей суммы квадратов (большей  дисперсии) равно 1 и число степеней  свободы остаточной суммы квадратов (меньшей дисперсии) при линейной  регрессии равно n-2.

Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то  говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. 
Табличное значение критерия со степенями свободы k1=1 и k2=3, Fтабл = 10.1

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

8. Исследуем значимость коэффициентов  уравнения регрессии по критерию Стьюдента.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента.

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (3;0.025) = 3.182 
 

Sb - стандартное отклонение случайной величины b. 
 

Поскольку 4.36 > 3.182, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). 
 

Sa - стандартное отклонение случайной величины a. 

 

 
 
Поскольку 14.18 > 3.182, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

9. Оцениваем доверительные интервалы для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95%  будут следующими:

(b - tкрит Sb; b + tкрит Sb)

Sb - стандартное отклонение случайной величины b. 
 

 

(-0.55 - 3.182 • 0.13; -0.55 + 3.182 • 0.13)

(-0.95;-0.15)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

 

(a - tкрит Sa; a + tкрит Sa)

Sa - стандартное отклонение случайной величины a. 

 

 

(6.03 - 3.182 • 0.43; 6.03 + 3.182 • 0.43)

(4.68;7.39)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

10. Оценим доверительные интервалы для коэффициентов корреляции и детерминации.

r - tкрит 1-r2;n; r + tкрит 1-r2;n

Доверительный интервал для коэффициента корреляции:

tкрит (n-m-1;α/2) = (3;0.025) = 3.182

 

0.93 - 3.1821-0.932;5; 0.93 + 3.1821-0.932;5

r(-1.12;-0.74)

 

 

 

 


Информация о работе Парный линейный регрессионный анализ