Анализ данных житлового фонду України у 1990-2009 роках

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 11:55, курсовая работа

Краткое описание

Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/

Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.

Содержание

1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка багатовимірної регресійної моделі: 12
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
Побудова довірчого інтервалу для індивідуального значення yn+k: 19
Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31

Вложенные файлы: 1 файл

Курсовая_Обласова.docx

— 302.11 Кб (Скачать файл)

 

3. Якщо виконується умова:

 ti > t (α/2, n–2) ,  i = 0, 1;

то даний коефіцієнт є значимим.

 

    1. Коефіцієнт значущості α = 0,05:

 tкр(0,025; 17) = 2,11

 

t1  > t кр(0,025; 17)

t0  > t кр(0,025; 17)

b1 є значимим коефіцієнтом;

b0 є значимим коефіцієнтом, на рівні значущості α = 0,05.

 

    1. Коефіцієнт значущості α = 0,01:

 tкр(0,005; 17) = 2,898

 

t1 > t кр(0,005; 17)

t0 > t кр(0,005; 17).

b1 є значимим коефіцієнтом;

b0 є значимим, на рівні значущості α = 0,01.

 

  1. Побудова інтервалів довіри для β0 та β1:

 

Інтервали довіри для β0 та β1 обчислюються за формулами:

 bi – t(α/2;n–2) ∙ σ bi < βi < bi + t(α/2;n–2) ∙ σ bi ,   i = 0,1.

 

  1. Коефіцієнт значущості α = 0,05:

1051,21 – 2,11∙  < β0 < 1051,21 + 2,11 ∙

 

1039,62 < β0 < 1062,8

 

–0,65 – 2,11 ∙  < β1 < –0,65 + 2,11 ∙

 

 –0,77< β1 < –0,53

 

  1. Коефіцієнт значущості α = 0,01:

1051,21 – 2,89∙  < β0 < 1051,21 + 2,89 ∙

 

1035,34 < β0 < 1067,08

 

–0,65 – 2,89 ∙  < β1 < –0,65 + 2,89 ∙

 

 –0,82 < β1 < –0,48

 

  1. Побудова інтервалів довіри для прогнозованих значень:

 

Інтервали довіри для прогнозованих значень мають  вигляд:

 

 

 

 

 

Прогнозовані значення:

xn+1 = ͞ + 0,2 = 67

xn+2 = 8

yn+1 = 1007,7

yn+2 = 1046

 

  1. Коефіцієнт значущості α = 0,05:

1007,7 – 2,11 ∙  < yn+1 < 1007,7 + 2,11 ∙

971,54  < yn+1 < 1043,8

 

1046 – 2,11 ∙  < yn+2 < 1046 + 2,11 ∙

1009,15 < yn+2 <  1082,87

 

2. Коефіцієнт значущості α = 0,01:

1007,7 – 2,89 ∙  < yn+1 < 1007,7 + 2,89 ∙

958,18  < yn+1 < 1057,15

 

1046 – 2,89 ∙  < yn+2 < 1046 + 2,89 ∙

995,52  < yn+2 <  1096,5

 

 

 

II) Побудова та перевірка багатовимірної регресійної моделі:

 

  1. Аналіз та вибір факторів для багатофакторної лінійної регресійної моделі:

 

Оберемо такі фактори для багатовимірної регресійної моделі:

X1 – Кількість сімей та одинаків, які одержали житло протягом року, тис.

X2 – У середньому на одного жителя, м2

X3 – Кількість квартир, усього, тис.

X4 – Кількість однокімнатних квартир, тис.

X5 – Кількість двокімнатних квартир, тис.

X6 – Кількість трикімнатних квартир, тис.

X7 – Кількість чотири- і більше кімнатних квартир, тис.

X8 – Кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис.

 

  1. Математично-статистичний аналіз на мультиколінеарність:

 

Для математично-статистичного аналізу  необхідно побудувати кореляційну  матрицю R:

 

 

Побудуємо кореляційну матрицю для заданих  числових даних:

 

 

 

Якщо |rxiyi|>0,9 то будемо вважати що між xi та xj присутнє явище мультиколінеарності.

В цьому випадку один із факторів   треба виключити з моделі. Виключаємо той фактор для якого |rxiyi| буде меншим.

Аналізуючи  значення їх значення відкидаємо такі фактори: X1, X3, X4, X5, X6.

Отже маємо таблицю:

 

Рік

y

x2

x7

x8

1995

978,3

19,2

1781

2411

1996

995,2

19,7

1812

2297

1997

1002,6

20

1850

2164

1998

1008,4

20,2

1878

2029

2000

1015

20,7

1899

1765

2001

1026,13

21

1920

1624

2002

1031,7

21,3

1930

1533

2003

1035,7

21,6

1938

1460

2004

1040

21,8

1950

1414

2005

1046,4

22

1967

1323

2006

1049,2

22,2

1987

1300

2007

1057,6

22,5

2006

1252

2008

1066,6

22,8

2025

1216

2009

1072,2

23

2039

1174

Середнє

1030,36

21,29

1927,29

1640,14


 

  1. Оцінка невідомих параметрів b0…bm.:

 

Вибірка з багатофакторної регресійної  моделі має вигляд:

 

,де

 

x1i … xmi  – значення x1 … xm в i – ому спостережені.

 

Введемо позначення:

 

 

 

 

Тоді вибірка з багатофакторної  регресійної матиме вигляд:

 

 

 

Невідомі параметри b0…bm обчислюються за формулою:

 

 b = (X '∙X)-1∙X'∙Y

Знайдемо невідомі параметри  b0…bm:

 

 

 

Отримана регресійна модель буде мати вигляд:

 

 

 

  1. Перевірка на адекватність за допомогою критерія Фішера:

 

Для перевірки будемо розглядати нульову  гіпотезу H0:

H0 = β0= β1= …= βm=0;

Проти альтернативної:

H1 = βi ≠ 0.

 

Для того, щоб перевірити нульову гіпотезу необхідно:

 

  1. Обчислити розрахункове число Фішера Fm,nm2;

 

 

 

Обчислимо число Фішера:

F3,9  = 902,08;

 

  1. Задати коефіцієнт значущості α;

 

  1. Якщо Fm,nm2 > Fкр(m; n – m – 2), то гіпотеза H0 відхиляється, дана регресійна модель адекватна спостереженим даним.

 

Перевіримо  модель на адекватність:

    1. Коефіцієнт значущості α = 0,05:

Fкр(3; 9) = 3,86;

F3,9  > Fкр(3; 9).

 

Гіпотеза H0 відхиляється

Модель є адекватною спостережуваним  даним на рівні значущості 5%.

 

    1. Коефіцієнт значущості α = 0,01:

Fкр(3; 9) = 6,99;

F3,9  > Fкр(3; 9).

 

Гіпотеза H0 відхиляється

Модель є адекватною спостережуваним  даним на рівні значущості 1%.

 

  1. Побудова множинного коефіцієнта кореляції:

 

y – весь житловий фонд, загальної  площі, млн.м2 ;

х2 – у середньому на одного жителя, м2 ;

х7 – кількість чотири- і більше кімнатних квартир, тис. ;

х8 – кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис.;

 

Вибіркова багатофакторна лінійна  регресійна модель має вигляд:

 

,  де

 

 – це помилка (відхилення),

 – це випадкові величини.

 

Для наших початкових даних вона приймає такий вигляд:

 

 

 

Корисною мірою ступеня відповідності  даних ŷ ( ) одержаних з регресійної моделі фактичним даним є коефіцієнт множинної кореляції . Він визначається як коефіцієнт кореляції між змінними ŷ та у, тобто:

 

 

де:

 – коваріаційний коефіцієнт,

 та

 – дисперсії величин ŷ та у.

 

Позитивне значення свідчить про прямий зв'язок, а негативне про зворотній.

Значення  коефіцієнту лежить в межах  . Якщо значення коефіцієнта кореляції близьке до нуля, то статистичний зв'язок між ŷ та у відсутній. На практиці будемо вважати, що якщо – то статистичний зв'язок відсутній. А якщо значення коефіцієнта близьке до 1 – , то вважається, що вплив є значним.

 

Порахуємо множинний коефіцієнт кореляції  для наших початкових даних:

 

 

 

Вплив є значним. Знайдені дані точно відповідають фактичним.

 

  1. Побудова варіаційно-коваріаційної матриці параметрів багатофакторної регресійної моделі:

 

Дисперсійно-коваріаційна матриця має вигляд:

 

 

В матричному вигляді вона записується так:

 

 

Варіаційно-коваріаційна матриця може бути обчислена за формулою:

 

,  де 
- це є дисперсія випадкової величини
.

 

Оцінку  будемо робити за допомогою величини:

 

,  де    ei = ŷi – уi°°

 

Можна показати, що  .

 

Тоді  величина – перепишеться :

 

.

 

Спираючись  на наші початкові данні ми отримаємо:

 

 

 

тоді  варіаційно-коваріаційна матриця має вигляд:

 

 

 

  1. Перевірка значущості коефіцієнтів bi побудованої багатофакторної регресійної моделі:

 

Для перевірки будемо розглядати нульову  гіпотезу H0:

H0 = β0= β1= …= βm=0;

Проти альтернативної:

H1 = βi ≠ 0.

 

Для перевірки справедливості нульової гіпотези будується так звана t-статистика:

,  
.

Задаємо рівень значущості та і користуючись таблицею критичних точок розподілу Стьюдента знаходимо .

Зробити висновок чи є параметри  значимими (якщо , , то не виконується і відповідні параметри побудованої багатофакторної регресійної моделі  є значимими).

 

Спираючись  на наші початкові данні ми маємо:

 

Обираємо  та , тоді

 

 t(0,01/2; 14 – 3 – 1) = t(0,005; 10) = 3,17 

 

 t(0,05/2; 14 – 3 – 1) = t(0,025; 10) = 2,23

 

t0 > t(0,005; 10)

t0 > t(0,025; 10)

t1 > t(0,005; 10)

t1 > t(0,025; 10)

t2 < t(0,005; 10)

t2 < t(0,025; 10)

t3 < t(0,005; 10)

t3 < t(0,025; 10)


 

Отримані  нами данні говорять про те, що на рівні значущості α = 0,01 та α = 0,05 коефіцієнти b0 та b1 є значимими, а коефіцієнт b2 та b3 не є значимим.

 

  1. Побудова інтервалів довіри для знайдених параметрів bi :

 

Інтервали довіри для коефіцієнтів мають вигляд:

 

,
.

 

Робимо інтервальну оцінку для по даній вибірці. але він знаходиться в межах інтервалу з довірчою імовірністю .

 

Спираючись на наші початкові данні  ми маємо:

 

165,65 < β0 < 572,88

226,30 < β0 < 512,50

6,16 < β1 < 28,64

9,49 < β1 < 25,31

–0,02 < β2 < 0,30

0,03 < β2 < 0,25

–0,01 < β3 < 0,03

–0,003 < β3 < 0,02


 

  1. Побудова інтервалів довіри для прогнозного значення і його математичного сподівання:

 

Якщо побудована регресійна модель є адекватною, а це можна перевірити за допомогою критерію Фішера, то можна  знаходити прогнозне значення залежної змінної  y. Нехай нам відомі значення в – період, тоді прогнозне значення нашого показника в цей період дорівнює:

 

 

 

З іншого боку

, де 

.

 

Информация о работе Анализ данных житлового фонду України у 1990-2009 роках