Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 11:55, курсовая работа
Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/
Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.
1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка багатовимірної регресійної моделі: 12
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
Побудова довірчого інтервалу для індивідуального значення yn+k: 19
Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31
Отже, між факторами
|
|
присутнє явище мультиколінеарності.
Одним із основних припущень моделі класичної лінійної регресії є припущення про сталість дисперсії випадкової величини :
Якщо це припущення не задовольняється в деякому окремому випадку, тобто
то кажуть, що має місце явище гетероскедасти
Суть припущення гетероскедастичності полягає в тому, що дисперсія випадкової величини навколо її математичного сподівання є величиною сталою і не залежить від значення .
Цей тест застосовується до великих вибірок, для яких спостережень має бути хоча б удвічі більше, ніж оцінюваних параметрів.
Тест припускає нормальний розподіл та незалежність випадкової величини .
Для застосування тесту сформулюємо нульову та альтернативну гіпотези:
– полягає в тому, що є гомоскедастичною.
– полягає в тому, що є гетероскедастична величина зі зростаючою дисперсією.
Тест складається з декількох етапів:
І етап:
Ранжуємо спостереження незалежної змінної в порядку зростання. У разі багатофакторної регресії, коли ми маємо більше ніж одну незалежну змінну, обираємо одну з них і для неї проводимо ранжування.
Якщо важко апріорі визначити змінну для ранжування, то по черзі проводимо ранжування за кожною змінною і в кожному випадку застосовуємо тест Гольдфельда-Квандта.
ІІ етап:
Задаємо величину – кількість центральних спостережень за незалежною змінною , які ми будемо виключати з подальшого аналізу (для вибірки з кількістю спостережень оптимальна кількість центральних спостережень, що не враховуються в тесті становить всіх спостережень):
Залишок спостережень ділиться на 2 рівні підвибірки однакового розміру , одна з яких включає малі значення , інша – великі.
y |
x2 | |
1995 |
978,3 |
19,2 |
1996 |
995,2 |
19,7 |
1997 |
1 002,6 |
20,0 |
1998 |
1 008,4 |
20,2 |
2000 |
1 015,0 |
20,7 |
2005 |
1 046,4 |
22,0 |
2006 |
1 049,2 |
22,2 |
2007 |
1 057,6 |
22,5 |
2008 |
1 066,6 |
22,8 |
2009 |
1 072,2 |
23,0 |
y |
x7 | |
1995 |
978,3 |
1 781 |
1996 |
995,2 |
1 812 |
1997 |
1 002,6 |
1 850 |
1998 |
1 008,4 |
1 878 |
2000 |
1 015,0 |
1 899 |
2005 |
1 046,4 |
1 967 |
2006 |
1 049,2 |
1 987 |
2007 |
1 057,6 |
2 006 |
2008 |
1 066,6 |
2 025 |
2009 |
1 072,2 |
2 039 |
y |
x8 | |
2009 |
1072,2 |
1174 |
2008 |
1066,6 |
1216 |
2007 |
1057,6 |
1252 |
2006 |
1049,2 |
1300 |
2005 |
1046,4 |
1323 |
2000 |
1015 |
1765 |
1998 |
1008,4 |
2029 |
1997 |
1002,6 |
2164 |
1996 |
995,2 |
2297 |
1995 |
978,3 |
2411 |
ІІІ етап:
Будуємо окремо регресію для кожної підвибірки і розраховуємо суму квадратів залишків. В результаті отримаємо:
- сума квадратів залишків
для підвибірки з малими
- сума квадратів залишків для підвибірки з великими значеннями .
тоді регресія має вигляд: ŷ = 506,32 + 24,73∙x2
звідси
тоді регресія має вигляд: ŷ = 458,84 + 26,65∙x2
звідси
тоді регресія має вигляд: ŷ = 469, 95 + 0,29∙x7
звідси
тоді регресія має вигляд: ŷ = 302,26 + 0,38∙x7
звідси
тоді регресія має вигляд: ŷ = 1 285,27 – 0,18∙x8
звідси
тоді регресія має вигляд: ŷ = 1 111,34 – 0,05∙x8
звідси
IV етап:
Кількість ступеней вільності для сум квадратів залишків: , де – кількість параметрів оцінюваної моделі.
Якщо кожну з цих сум поділити на кількість ступеней вільності, то отримаємо оцінки дисперсії величини у двох підвибірках.
Обчислюємо значення відношення двох дисперсій:
Ця величина має розподіл Фішера з ступенями вільності та :
1)
2)
3)
V етап:
Якщо , то дві дисперсії рівні і вони є гомоскедастичними.
Якщо ж дисперсії
і в цьому випадку порівнюється з теоретичним значенням
Якщо , то в системі присутня гетероскедастичність. Чим більша ця різниця, тим більша гетероскедастичність.
F = 0,13 < |
F = 0,13 < |
F = 0,39 < |
F = 0,39 < |
F = 25,03 > |
F = 25,03 < |
І)
Проста лінійна регресійна модель залежності кількості сімей та одинаків, які одержали житло протягом року (тис.) від загальної площі всього житлового фонду (млн. м2) має вигляд:
ŷ = 1 051,21 – 0,65х
На рівні значущості α = 0,05 отримана регресійна модель:
1 039,62 < β0 < 1 062,8
–0,77< β1 < –0,53
971,54 < yn+1 < 1043,8
1 009,15 < yn+2 < 1 082,87
На рівні значущості α = 0,01 отримана регресійна модель:
1 035,34 < β0 < 1 067,08
–0,82 < β1 < –0,48
958,18 < yn+1 < 1 057,15
995,52 < yn+2 < 1 096,5
ІІ)
Багатофакторна лінійна
має вигляд:
Отримана регресійна модель є адекватною на рівні значущості α = 0,01 та α = 0,05.
165,65 < β0 < 572,88 |
226,30 < β0 < 512,50 |
6,16 < β1 < 28,64 |
9,49 < β1 < 25,31 |
-0,02 < β2 < 0,30 |
0,03 < β2 < 0,25 |
-0,01 < β3 < 0,03 |
-0,003 < β3 < 0,02 |
1 086,44 < yn+k < 1 109,29 |
1 089,83 < yn+k < 1 105,9 |
Інтервал довіри для математичного сподівання прогнозованого значення має вигляд:
1 087,85 < М(yn+k ) < 1 107,88 |
1 090,82 < М(yn+k ) < 1 104,91 |
На рівні значущості α = 0,05 між факторами
|
|
|
Информация о работе Анализ данных житлового фонду України у 1990-2009 роках