Автор работы: Пользователь скрыл имя, 02 Декабря 2013 в 15:20, контрольная работа
Задание
1. Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.
2. Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.
3. Рассчитайте параметры линейной парной регрессии для всех факторов Х.
4. Оцените качество каждой модели через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера. Выберите лучшую модель.
Таким образом, цена квартиры Y с вероятностью 90 % будет находиться в интервале от 110,788 до 207,828 тыс. долл.
Как было указано выше, лучшая парная модель регрессии всегда соответствует наиболее тесно связанному с результативным признаком Y фактору. Поэтому на поле корреляции, построенное при выполнении пункта 2 (см. прил. 3), дополнительно поместим линию регрессии вместе с уравнением регрессии и коэффициентом детерминации R2 (меню «Диаграмма» ® «Добавить линию тренда…» ® «Линейная») (рис. 8). Точечный и интервальный прогнозы наносим на график вручную.
рис. 8. Построение линии регрессии
6. Анализ парных коэффициентов корреляции между факторными переменными X4, X5, X6 (см. табл. 4) свидетельствует об отсутствии коллинеарных факторов (ни один из межфакторных коэффициентов корреляции не превышает по абсолютной величине 0,8). Поэтому вначале можно попробовать построить модель регрессии с полным перечнем факторов — Y(X4, X5, X6) (рис. 9), и при необходимости скорректировать ее методом исключения.
рис. 9. Построение уравнения регрессии Y( X4, X5, X6)
Результаты регрессионного анализа приведены в прил. 5 и перенесены в табл. 5.
Таблица 5
Результаты регрессионного анализа модели Y(X4, X5, X6)
Регрессионная статистика | |||||||||
Множественный R |
0,833688577 | ||||||||
R-квадрат |
0,695036644 | ||||||||
Нормированный R-квадрат |
0,669623031 | ||||||||
Стандартная ошибка |
29,59690587 | ||||||||
Наблюдения |
40 | ||||||||
Дисперсионный анализ | |||||||||
df |
SS |
MS |
F |
Значимость F | |||||
Регрессия |
3 |
71871,24496 |
23957,08 |
27,34899 |
2,14E-09 | ||||
Остаток |
36 |
31535,16614 |
875,9768 |
||||||
Итого |
39 |
103406,4111 |
|||||||
Уравнение регрессии | |||||||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение | ||||||
Y-пересечение |
-12,07202168 |
21,22643886 |
-0,56873 |
0,573073 | |||||
X4 |
2,375993622 |
0,278419328 |
8,533867 |
3,59E-10 | |||||
X5 |
1,371439013 |
1,307196819 |
1,049145 |
0,301104 | |||||
X6 |
0,191218232 |
2,27673958 |
0,083988 |
0,933531 |
Уравнение регрессии имеет вид (см. «Коэффициенты» в табл. 5):
Уравнение признается статистически значимым, так как вероятность его случайного формирования в том виде, в котором оно получено (наблюдаемый уровень значимости), составляет 2,14×10-9 (см. «Значимость F» в табл. 5), что существенно ниже принятого уровня значимости a=0,05.
Вероятность случайного формирования коэффициента при факторе Х4 ниже a=0,05 (см. «P-Значение» в табл. 5), что свидетельствует о его статистической значимости.
Вероятность случайного формирования коэффициентов при факторах Х5 и Х6 превышает a=0,05 (см. «P-Значение» в табл. 5), поэтому данные коэффициенты не являются статистически значимыми.
Согласно методу исключения, из модели исключается тот фактор, коэффициент при котором незначим и имеет наименьшую по абсолютной величине t-статистику. После этого строится новое уравнение регрессии, и процедура повторяется до тех пор, пока все коэффициенты регрессии при факторах не окажутся статистически значимыми.
В нашем случае из незначимых коэффициентов при факторах наименьший модуль имеет t-статистика коэффициента при факторе Х6, который и исключается из модели. Для построения уравнения регрессии Y(X4, X5) скопируем на чистый рабочий лист значения переменных Y, X4, X5 (прил. 6) и проведем регрессионный анализ (рис. 10). Его результаты приведены в прил. 7 и перенесены в табл. 6.
рис. 10. Панель регрессионного анализа модели Y(X1, X3)
Таблица 6
Результаты регрессионного анализа модели Y(X4, X5)
Регрессионная статистика | |||||||||
Множественный R |
0,833652739 | ||||||||
R-квадрат |
0,694976889 | ||||||||
Нормированный R-квадрат |
0,678489153 | ||||||||
Стандартная ошибка |
29,19706817 | ||||||||
Наблюдения |
40 | ||||||||
Дисперсионный анализ | |||||||||
df |
SS |
MS |
F |
Значимость F | |||||
Регрессия |
2 |
71865,07 |
35932,53 |
42,15114 |
2,89E-10 | ||||
Остаток |
37 |
31541,35 |
852,4688 |
||||||
Итого |
39 |
103406,4 |
|||||||
Уравнение регрессии | |||||||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение | ||||||
Y-пересечение |
-10,73260503 |
13,81899 |
-0,77666 |
0,442299 | |||||
X4 |
2,382565457 |
0,263588 |
9,038973 |
6,69E-11 | |||||
X5 |
1,417243691 |
1,171946 |
1,209308 |
0,234215 |
Уравнение регрессии имеет вид (см. «Коэффициенты» в табл. 6):
Уравнение регрессии признается статистически значимым, так как вероятность его случайного формирования в том виде, в котором оно получено, составляет 2,89×10-10 (см. «Значимость F» в табл. 6), что существенно ниже принятого уровня значимости a=0,05.
Вероятность случайного формирования коэффициента при факторе Х4 ниже a=0,05 (см. «P-Значение» в табл. 6), что свидетельствует о его статистической значимости.
Вероятность случайного формирования коэффициента при факторе Х5 превышает a=0,05 (см. «P-Значение» в табл. 6), поэтому данный коэффициент не является статистически значимыми.
Согласно методу исключения фактор Х5 должен быть исключен из модели, но в этом случае мы придем к парной модели Y(X4). Однако фактор Х5 все же можно считать информативным, так как модуль t-статистики коэффициента при нем превышает единицу. Другими словами, абсолютная величина коэффициента — «закономерность», больше его стандартной ошибки — «случайности». Поэтому фактор Х5 можно оставить в модели, хотя к дальнейшим выводам относительно него следует относиться с некоторой долей осторожности.
Таким образом, в качестве рабочей модели принимаем уравнение регрессии Y(X4, X5). Дадим экономическую интерпретацию его коэффициентов.
Коэффициент при фиктивной переменной Х5 (этаж квартиры) показывает, что при прочих равных условиях цена квартиры на первом этаже на 1,42 тыс. долл. ниже, чем на втором этаже. Однако из-за статистической незначимости коэффициента при факторе Х5 нельзя уверенно утверждать, что разница в ценах квартир на разных этажах является существенной.
Коэффициент при факторе Х4 (жилая площадь) является статистически значимым. Это означает, что жилая площадь квартиры существенно влияет на ее цену. При увеличении площади на 1 кв. м. цена квартиры при прочих равных условиях возрастает в среднем на 2,38 тыс. долл.
7. Оценим качество модели (см. «Регрессионную статистику» в табл. 6):
показывает, что регрессионная модель объясняет 64,3 % вариации цены квартиры Y, причем эта вариация обусловлена вариацией включенных в модель факторов X1 и X3;
показывает, что предсказанные уравнением регрессии значения цены квартиры Y отличаются от фактических значений в среднем на29,2 тыс. долл.
Средняя относительная ошибка аппроксимации
показывает, что предсказанные уравнением регрессии значения цены квартиры отличаются от фактических значений в среднем на 24,9 %. Точность модели — неудовлетворительная.
Таким образом, качество множественной модели регрессии Y(X4, X5) несколько улучшилось по сравнению с лучшей однофакторной моделью Y(X4).
Оценим влияние факторов на цену квартиры в модели множественной регрессии Y(X4, X5). Для удобства сведем в таблицу средние значения и стандартные отклонения переменных в исходных данных (табл. 7). Средние значения были определены с помощью встроенной функции «СРЗНАЧ», стандартные отклонения — с помощью функции «СТАНДОТКЛОН» (см. прил. 1).
Таблица 7
Средние значения и стандартные отклонения используемых переменных
Переменная |
Y |
X4 |
X5 |
Среднее |
93,65 |
39,618 |
7,05 |
Стандартное отклонение |
51,49 |
17,755 |
3,99 |
1) Фактор X5 (этаж квартиры)
Фактор X5 является фиктивной переменной. Средний коэффициент эластичности для фиктивных переменных лишен смысла.
2) Фактор X4 (жилая площадь квартиры)
Средний коэффициент эластичности фактора X4 имеет значение
Он показывает, что при увеличении общей площади на 1 % цена квартиры возрастает в среднем на 1,007 %.
Сравним между собой силу влияния на цену квартиры включенных в регрессионную модель факторов, для чего определим их бета–коэффициенты:
Сравнивая по абсолютной величине бета–коэффициенты, можно сделать вывод о том, что на изменение цены квартиры Y сильнее всего влияет изменение жилой площади Х4, и далее по степени влияния следует этаж квартиры X5.
Определим дельта–коэффициенты факторов:
где ry,x4=(0,82); ry,x5=0,146 — коэффициенты корреляции между парами переменных Y–X4, Y–X5 соответственно (см. табл. 4); R2=0,69 — множественный коэффициент детерминации (см. табл. 6).
Сумма дельта–коэффициентов факторов, включенных в модель, должна быть равна единице. Небольшое неравенство может быть вызвано погрешностями промежуточных округлений.
Таким образом, в суммарном влиянии на цену квартиры Y всех факторов, включенных в модель, доля влияния этажа квартиры X5 составляет 2,3 %, жилой площади Х4 — 97%.
ПРИЛОЖЕНИЯ:
Задача 1 |
Приложение 1 | |||
Исходные данные |
||||
№ квартиры |
Y |
X4 |
X5 |
X6 |
1 |
115 |
51,4 |
9 |
7 |
2 |
85 |
46 |
5 |
10 |
3 |
69 |
34 |
6 |
10 |
4 |
57 |
31 |
1 |
9 |
5 |
184,6 |
65 |
1 |
9 |
6 |
56 |
17,9 |
2 |
7 |
7 |
85 |
39 |
12 |
8,3 |
8 |
265 |
80 |
10 |
16,5 |
9 |
60,65 |
37,8 |
11 |
12,1 |
10 |
130 |
57 |
6 |
6 |
11 |
46 |
20 |
2 |
10 |
12 |
115 |
40 |
2 |
7 |
13 |
70,96 |
36,9 |
5 |
12,5 |
14 |
39,5 |
20 |
7 |
11 |
15 |
78,9 |
16,9 |
14 |
13,6 |
16 |
60 |
32 |
11 |
12 |
17 |
100 |
58 |
1 |
9 |
18 |
51 |
36 |
6 |
12 |
19 |
157 |
68 |
2 |
11 |
20 |
123,5 |
67,5 |
12 |
12,3 |
21 |
55,2 |
15,3 |
9 |
12 |
22 |
95,5 |
50 |
6 |
12,5 |
23 |
57,6 |
31,5 |
5 |
11,4 |
24 |
64,5 |
34,8 |
10 |
10,6 |
25 |
92 |
46 |
9 |
6,5 |
26 |
100 |
52,3 |
2 |
7 |
27 |
81 |
27,8 |
3 |
6,3 |
28 |
65 |
17,3 |
5 |
6,6 |
29 |
110 |
44,5 |
10 |
9,6 |
30 |
42,1 |
19,1 |
13 |
10,8 |
31 |
135 |
35 |
12 |
10 |
32 |
39,6 |
18 |
5 |
8,6 |
33 |
57 |
34 |
8 |
10 |
34 |
80 |
17,4 |
4 |
8,5 |
35 |
61 |
34,8 |
10 |
10,6 |
36 |
69,6 |
53 |
4 |
12 |
37 |
250 |
84 |
15 |
13,3 |
38 |
64,5 |
30,5 |
12 |
8,6 |
39 |
125 |
30 |
8 |
9 |
40 |
152,3 |
55 |
7 |
13 |
Среднее |
93,65 |
39,618 |
7,05 |
10,06 |
Стандартное отклонение |
51,49 |
17,755 |
3,99 |
2,38 |
Наибольшее значение |
265 |
84 |
15 |
16,5 |
Наименьшее значение |
39,5 |
15,3 |
1 |
6 |