Автор работы: Пользователь скрыл имя, 05 Апреля 2014 в 09:30, контрольная работа
С использованием надстройки «Анализ данных» в Excel требуется выполнить этапы регрессионного анализа и интерпретировать полученные результаты:
Найти линейное уравнение регрессии y=a+bx.
Построить график рассеяния и линию регрессии на одном рисунке.
Вычислить предсказанные значения y, остатки и стандартные остатки.
Задание
С использованием надстройки «Анализ данных» в Excel требуется выполнить этапы регрессионного анализа и интерпретировать полученные результаты:
Данные
1 |
2 |
3 |
4 |
5 | |
4.8 |
2.6 |
5 |
0.4 |
1.3 | |
4 |
4.1 |
2.9 |
5.9 |
5.5 |
Решение
1. Найдем уравнения линейной регрессии для данных:
1 |
2 |
3 |
4 |
5 | |
4.8 |
2.6 |
5 |
0.4 |
1.3 | |
4 |
4.1 |
2.9 |
5.9 |
5.5 |
Составим таблицу вспомогательных величин:
1 |
4.8 |
4 |
19.2 |
23.04 |
16 |
2 |
2.6 |
4.1 |
10.66 |
6.76 |
16.81 |
3 |
5 |
2.9 |
14.5 |
25 |
8.41 |
4 |
0.4 |
5.9 |
2.36 |
0.16 |
34.81 |
5 |
1.3 |
5.5 |
7.15 |
1.69 |
30.25 |
14.1 |
22.4 |
53.87 |
56.65 |
106.28 |
Вычислим коэффициенты и уравнения линейной регрессии по формулам:
Итак, искомое уравнение линейной регрессии имеет вид: .
2. Построим график рассеяния и линию регрессии.
3. Вычислим предсказанные значения y, остатки и стандартные остатки.
4. Вычислим коэффициенты корреляции и детерминации.
следовательно, т.е. в 86.36 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая.
Для оценки значимости параметров регрессии и корреляции сначала:
– найдём средний:
– составим таблицу вспомогательных величин, где
1 |
4.8 |
4 |
3.3899 |
1.98 |
3.9204 |
0.6101 |
0.3723 |
0.1525 |
— |
— |
2 |
2.6 |
4.1 |
4.6011 |
−0.22 |
0.0484 |
−0.5011 |
0.2511 |
0.1222 |
−1.1113 |
1.2349 |
3 |
5 |
2.9 |
3.2798 |
2.18 |
4.7524 |
−0.3798 |
0.1442 |
0.131 |
0.1214 |
0.0147 |
4 |
0.4 |
5.9 |
5.8124 |
−2.42 |
5.8564 |
0.0876 |
0.0077 |
0.0149 |
0.4674 |
0.2184 |
5 |
1.3 |
5.5 |
5.3169 |
−1.52 |
2.3104 |
0.1831 |
0.0335 |
0.0333 |
0.0955 |
0.0091 |
— |
— |
— |
— |
16.888 |
— |
0.8088 |
0.4539 |
— |
1.4772 |
5. Вычислим стандартную ошибку оценки результативного признака и среднюю ошибку аппроксимации.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов
подставляют в модель и получают точечные
прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
tкрит (n-m-1;α/2) = (3;0.025) = 3.182
Рассчитаем границы интервала,
в котором будет сосредоточено 95% возможных
значений Y при неограниченно большом
числе наблюдений и Xp = 3
(6.03 -0.55*3 ± 0.74)
(3.64;5.12)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Средняя ошибка аппроксимации:
6. Исследуем значимость коэффициента корреляции по критерию Стьюдента при 5% уровне значимости.
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия
tнабл = rxy n-2;1 - r2xy
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
tнабл = 0.93 3;1 - 0.932 = 6.05
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=3 находим tкрит:
tкрит (n-m-1;α/2) = (3;0.025) = 3.182
где m = 1 - количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически – значим.
7. Исследуем значимость коэффициента детерминации по критерию Фишера.
Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями
свободы больше табличного при заданном
уровне значимости, то модель считается
значимой.
где m – число факторов
в модели.
Оценка статистической значимости парной
линейной регрессии производится по следующему
алгоритму:
1. Выдвигается нулевая
гипотеза о том, что уравнение
в целом статистически
2. Далее определяют фактическое
значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение
определяется по таблицам
Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая
гипотеза отклоняется и с вероятностью
(1-α) принимается альтернативная гипотеза
о статистической значимости уравнения
в целом.
Табличное значение критерия со степенями
свободы k1=1 и k2=3, Fтабл = 10.1
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
8. Исследуем значимость коэффициентов уравнения регрессии по критерию Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента.
Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.
tкрит (n-m-1;α/2) = (3;0.025) = 3.182
Sb - стандартное отклонение случайной
величины b.
Поскольку 4.36 > 3.182, то статистическая
значимость коэффициента регрессии b подтверждается
(отвергаем гипотезу о равенстве нулю
этого коэффициента).
Sa - стандартное отклонение случайной
величины a.
Поскольку 14.18 > 3.182, то статистическая
значимость коэффициента регрессии a подтверждается
(отвергаем гипотезу о равенстве нулю
этого коэффициента).
9. Оцениваем доверительные интервалы для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
Sb - стандартное отклонение случайной
величины b.
(-0.55 - 3.182 • 0.13; -0.55 + 3.182 • 0.13)
(-0.95;-0.15)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
Sa - стандартное отклонение случайной
величины a.
(6.03 - 3.182 • 0.43; 6.03 + 3.182 • 0.43)
(4.68;7.39)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
10. Оценим доверительные интервалы для коэффициентов корреляции и детерминации.
r - tкрит 1-r2;n; r + tкрит 1-r2;n
Доверительный интервал для коэффициента корреляции:
tкрит (n-m-1;α/2) = (3;0.025) = 3.182
0.93 - 3.1821-0.932;5; 0.93 + 3.1821-0.932;5
r(-1.12;-0.74)