Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 11:55, курсовая работа
Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/
Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.
1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка багатовимірної регресійної моделі: 12
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
Побудова довірчого інтервалу для індивідуального значення yn+k: 19
Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31
3. Якщо виконується умова:
ti > t (α/2, n–2) , i = 0, 1;
то даний коефіцієнт є значимим.
tкр(0,025; 17) = 2,11
t1 > t кр(0,025; 17)
t0 > t кр(0,025; 17)
b1 є значимим коефіцієнтом;
b0 є значимим коефіцієнтом, на рівні значущості α = 0,05.
tкр(0,005; 17) = 2,898
t1 > t кр(0,005; 17)
t0 > t кр(0,005; 17).
b1 є значимим коефіцієнтом;
b0 є значимим, на рівні значущості α = 0,01.
Інтервали довіри для β0 та β1 обчислюються за формулами:
bi – t(α/2;n–2) ∙ σ bi < βi < bi + t(α/2;n–2) ∙ σ bi , i = 0,1.
1051,21 – 2,11∙ < β0 < 1051,21 + 2,11 ∙
1039,62 < β0 < 1062,8
–0,65 – 2,11 ∙ < β1 < –0,65 + 2,11 ∙
–0,77< β1 < –0,53
1051,21 – 2,89∙ < β0 < 1051,21 + 2,89 ∙
1035,34 < β0 < 1067,08
–0,65 – 2,89 ∙ < β1 < –0,65 + 2,89 ∙
–0,82 < β1 < –0,48
Інтервали довіри
для прогнозованих значень
Прогнозовані значення:
xn+1 = ͞ + 0,2 = 67
xn+2 = 8
yn+1 = 1007,7
yn+2 = 1046
1007,7 – 2,11 ∙ < yn+1 < 1007,7 + 2,11 ∙
971,54 < yn+1 < 1043,8
1046 – 2,11 ∙ < yn+2 < 1046 + 2,11 ∙
1009,15 < yn+2 < 1082,87
2. Коефіцієнт значущості α = 0,01:
1007,7 – 2,89 ∙ < yn+1 < 1007,7 + 2,89 ∙
958,18 < yn+1 < 1057,15
1046 – 2,89 ∙ < yn+2 < 1046 + 2,89 ∙
995,52 < yn+2 < 1096,5
II) Побудова та перевірка багатовимірної регресійної моделі:
Оберемо такі фактори для багатовимірної регресійної моделі:
X1 – Кількість сімей та одинаків, які одержали житло протягом року, тис.
X2 – У середньому на одного жителя, м2
X3 – Кількість квартир, усього, тис.
X4 – Кількість однокімнатних квартир, тис.
X5 – Кількість двокімнатних квартир, тис.
X6 – Кількість трикімнатних квартир, тис.
X7 – Кількість чотири- і більше кімнатних квартир, тис.
X8 – Кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис.
Для математично-статистичного
Побудуємо
кореляційну матрицю для
Якщо |rxiyi|>0,9 то будемо вважати що між xi та xj присутнє явище мультиколінеарності.
В цьому випадку один із факторів треба виключити з моделі. Виключаємо той фактор для якого |rxiyi| буде меншим.
Аналізуючи значення їх значення відкидаємо такі фактори: X1, X3, X4, X5, X6.
Отже маємо таблицю:
Рік |
y |
x2 |
x7 |
x8 |
1995 |
978,3 |
19,2 |
1781 |
2411 |
1996 |
995,2 |
19,7 |
1812 |
2297 |
1997 |
1002,6 |
20 |
1850 |
2164 |
1998 |
1008,4 |
20,2 |
1878 |
2029 |
2000 |
1015 |
20,7 |
1899 |
1765 |
2001 |
1026,13 |
21 |
1920 |
1624 |
2002 |
1031,7 |
21,3 |
1930 |
1533 |
2003 |
1035,7 |
21,6 |
1938 |
1460 |
2004 |
1040 |
21,8 |
1950 |
1414 |
2005 |
1046,4 |
22 |
1967 |
1323 |
2006 |
1049,2 |
22,2 |
1987 |
1300 |
2007 |
1057,6 |
22,5 |
2006 |
1252 |
2008 |
1066,6 |
22,8 |
2025 |
1216 |
2009 |
1072,2 |
23 |
2039 |
1174 |
Середнє |
1030,36 |
21,29 |
1927,29 |
1640,14 |
Вибірка з багатофакторної регресійної моделі має вигляд:
,де
x1i … xmi – значення x1 … xm в i – ому спостережені.
Введемо позначення:
Тоді вибірка з
Невідомі параметри b0…bm обчислюються за формулою:
b = (X '∙X)-1∙X'∙Y
Знайдемо невідомі параметри b0…bm:
Отримана регресійна модель буде мати вигляд:
Для перевірки будемо розглядати нульову гіпотезу H0:
H0 = β0= β1= …= βm=0;
Проти альтернативної:
H1 = βi ≠ 0.
Для того, щоб перевірити нульову гіпотезу необхідно:
Обчислимо число Фішера:
F3,9 = 902,08;
Перевіримо модель на адекватність:
Fкр(3; 9) = 3,86;
F3,9 > Fкр(3; 9).
Гіпотеза H0 відхиляється
Модель є адекватною спостережуваним даним на рівні значущості 5%.
Fкр(3; 9) = 6,99;
F3,9 > Fкр(3; 9).
Гіпотеза H0 відхиляється
Модель є адекватною спостережуваним даним на рівні значущості 1%.
y – весь житловий фонд, загальної площі, млн.м2 ;
х2 – у середньому на одного жителя, м2 ;
х7 – кількість чотири- і більше кімнатних квартир, тис. ;
х8 – кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис.;
Вибіркова багатофакторна лінійна регресійна модель має вигляд:
, де
– це помилка (відхилення),
– це випадкові величини.
Для наших початкових даних вона приймає такий вигляд:
Корисною мірою ступеня
де:
– коваріаційний коефіцієнт,
та
– дисперсії величин ŷ та у.
Позитивне значення свідчить про прямий зв'язок, а негативне про зворотній.
Значення коефіцієнту лежить в межах . Якщо значення коефіцієнта кореляції близьке до нуля, то статистичний зв'язок між ŷ та у відсутній. На практиці будемо вважати, що якщо – то статистичний зв'язок відсутній. А якщо значення коефіцієнта близьке до 1 – , то вважається, що вплив є значним.
Порахуємо множинний коефіцієнт кореляції для наших початкових даних:
Вплив є значним. Знайдені дані точно відповідають фактичним.
Дисперсійно-коваріаційна матриця має вигляд:
В матричному вигляді вона записується так:
Варіаційно-коваріаційна матриця може бути обчислена за формулою:
Оцінку будемо робити за допомогою величини:
, де ei = ŷi – уi°°
Можна показати, що .
Тоді величина – перепишеться :
Спираючись на наші початкові данні ми отримаємо:
тоді варіаційно-коваріаційна матриця має вигляд:
Для перевірки будемо розглядати нульову гіпотезу H0:
H0 = β0= β1= …= βm=0;
Проти альтернативної:
H1 = βi ≠ 0.
Для перевірки справедливості нульової гіпотези будується так звана t-статистика:
Задаємо рівень значущості та і користуючись таблицею критичних точок розподілу Стьюдента знаходимо .
Зробити висновок чи є параметри значимими (якщо , , то не виконується і відповідні параметри побудованої багатофакторної регресійної моделі є значимими).
Спираючись на наші початкові данні ми маємо:
Обираємо та , тоді
t(0,01/2; 14 – 3 – 1) = t(0,005; 10) = 3,17
t(0,05/2; 14 – 3 – 1) = t(0,025; 10) = 2,23
t0 > t(0,005; 10) |
t0 > t(0,025; 10) |
t1 > t(0,005; 10) |
t1 > t(0,025; 10) |
t2 < t(0,005; 10) |
t2 < t(0,025; 10) |
t3 < t(0,005; 10) |
t3 < t(0,025; 10) |
Отримані нами данні говорять про те, що на рівні значущості α = 0,01 та α = 0,05 коефіцієнти b0 та b1 є значимими, а коефіцієнт b2 та b3 не є значимим.
Інтервали довіри для коефіцієнтів мають вигляд:
Робимо інтервальну оцінку для по даній вибірці. але він знаходиться в межах інтервалу з довірчою імовірністю .
Спираючись на наші початкові данні ми маємо:
165,65 < β0 < 572,88 |
226,30 < β0 < 512,50 |
6,16 < β1 < 28,64 |
9,49 < β1 < 25,31 |
–0,02 < β2 < 0,30 |
0,03 < β2 < 0,25 |
–0,01 < β3 < 0,03 |
–0,003 < β3 < 0,02 |
Якщо побудована регресійна модель є адекватною, а це можна перевірити за допомогою критерію Фішера, то можна знаходити прогнозне значення залежної змінної y. Нехай нам відомі значення в – період, тоді прогнозне значення нашого показника в цей період дорівнює:
З іншого боку
, де
Информация о работе Анализ данных житлового фонду України у 1990-2009 роках