Анализ данных житлового фонду України у 1990-2009 роках

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 11:55, курсовая работа

Краткое описание

Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/

Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.

Содержание

1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка багатовимірної регресійної моделі: 12
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
Побудова довірчого інтервалу для індивідуального значення yn+k: 19
Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31

Вложенные файлы: 1 файл

Курсовая_Обласова.docx

— 302.11 Кб (Скачать файл)

 

Отже, між  факторами 

  • 3 та 5,
  • 3 та 6,
  • 5 та 6,
  • 6 та 8

 

присутнє  явище мультиколінеарності.

 

  1. Оцінка наявності гетероскедастичності за допомогою теста Гольдфельда-Квандта

 

Одним із основних припущень моделі класичної лінійної регресії є припущення про сталість дисперсії випадкової величини :

 

.

 

Якщо це припущення не задовольняється  в деякому окремому випадку, тобто 

 

,

 

то кажуть, що має місце явище гетероскедастичності.

Суть припущення гетероскедастичності полягає в тому, що дисперсія випадкової величини навколо її математичного сподівання є величиною сталою і не залежить від значення .

 

 

Цей тест застосовується до великих  вибірок, для яких спостережень має  бути хоча б удвічі більше, ніж оцінюваних параметрів.

Тест припускає нормальний розподіл та незалежність випадкової величини   .

Для застосування тесту сформулюємо  нульову та альтернативну гіпотези:

 – полягає в тому, що  є гомоскедастичною.

 – полягає в тому, що  є гетероскедастична величина зі зростаючою дисперсією.

 

Тест складається з декількох  етапів:

І етап:

Ранжуємо спостереження незалежної змінної в порядку зростання. У разі багатофакторної регресії, коли ми маємо більше ніж одну незалежну змінну, обираємо одну з них і для неї проводимо ранжування.

Якщо важко апріорі визначити  змінну для ранжування, то по черзі проводимо ранжування за кожною змінною і в кожному випадку застосовуємо тест Гольдфельда-Квандта.

 

ІІ  етап:

Задаємо величину – кількість центральних спостережень за незалежною змінною , які ми будемо виключати з подальшого аналізу (для вибірки з кількістю спостережень оптимальна кількість центральних спостережень, що не враховуються в тесті становить всіх спостережень):

 

.

 

Залишок спостережень ділиться на 2 рівні підвибірки однакового розміру , одна з яких включає малі значення , інша – великі.

 

 

y

x2

1995

978,3

19,2

1996

995,2

19,7

1997

1 002,6

20,0

1998

1 008,4

20,2

2000

1 015,0

20,7

     

2005

1 046,4

22,0

2006

1 049,2

22,2

2007

1 057,6

22,5

2008

1 066,6

22,8

2009

1 072,2

23,0

     

 

 

y

x7

1995

978,3

1 781

1996

995,2

1 812

1997

1 002,6

1 850

1998

1 008,4

1 878

2000

1 015,0

1 899

     

2005

1 046,4

1 967

2006

1 049,2

1 987

2007

1 057,6

2 006

2008

1 066,6

2 025

2009

1 072,2

2 039

     

 

 

y

x8

2009

1072,2

1174

2008

1066,6

1216

2007

1057,6

1252

2006

1049,2

1300

2005

1046,4

1323

     

2000

1015

1765

1998

1008,4

2029

1997

1002,6

2164

1996

995,2

2297

1995

978,3

2411

     

 

ІІІ етап:

Будуємо окремо регресію для кожної підвибірки і розраховуємо суму квадратів  залишків. В результаті отримаємо:

- сума квадратів залишків  для підвибірки з малими значеннями  ;

- сума квадратів залишків  для підвибірки з великими  значеннями  .

 

    1. для підвибірки з малими значеннями x2:

тоді регресія має вигляд:   ŷ = 506,32 + 24,73∙x2

звідси 

 

    1. для підвибірки з великими значеннями x2:

тоді регресія має вигляд:    ŷ = 458,84 + 26,65∙x2

звідси 

 

    1. для підвибірки з малими значеннями x7:

тоді регресія має вигляд:   ŷ = 469, 95 + 0,29∙x7

звідси 

 

    1. для підвибірки з великими значеннями x7:

тоді регресія має вигляд:    ŷ = 302,26 + 0,38∙x7

звідси 

 

 

    1. для підвибірки з малими значеннями x8:

тоді регресія має вигляд:   ŷ = 1 285,27 – 0,18∙x8

звідси 

 

    1. для підвибірки з великими значеннями x8:

тоді регресія має вигляд:    ŷ = 1 111,34 – 0,05∙x8

звідси 

 

IV етап:

Кількість ступеней вільності для сум квадратів залишків: , де – кількість параметрів оцінюваної моделі.

Якщо кожну з цих сум поділити на кількість ступеней вільності, то отримаємо оцінки дисперсії величини у двох підвибірках.

 

Обчислюємо значення відношення двох дисперсій:

 

 

Ця величина має розподіл Фішера з ступенями  вільності  та :

 

.

1)

2)

3)

 

V етап:

Якщо  , то дві дисперсії рівні і вони є гомоскедастичними.

Якщо ж дисперсії відрізняються, то , так як

 

 

і в цьому випадку  порівнюється з теоретичним значенням

    • при α = 0,05
    • при α = 0,01

 

Якщо  , то в системі присутня гетероскедастичність. Чим більша ця різниця, тим більша гетероскедастичність.

 

F = 0,13 <

F = 0,13 <

F = 0,39 <

F = 0,39 <

F = 25,03 >

F = 25,03 <


 

 

  1. Висновки

 

І)

Проста лінійна регресійна модель залежності кількості сімей та одинаків, які одержали житло протягом року (тис.) від загальної площі всього житлового фонду (млн. м2) має вигляд:

 ŷ = 1 051,21 – 0,65х 

 

На рівні значущості α = 0,05 отримана регресійна модель:

    1. Є адекватною;
    2. Коефіцієнт b0 є значимим;
    3. Коефіцієнт b1 є значимим;
    4. Інтервали довіри для β0 та β1 відповідно мають вид:

1 039,62 < β0 < 1 062,8

–0,77< β1 < –0,53

    1. Інтервали довіри для прогнозованих значень відповідно мають вид:

971,54  < yn+1 < 1043,8

1 009,15 < yn+2 < 1 082,87

 

На рівні значущості α = 0,01 отримана регресійна модель:

    1. Є адекватною;
    2. Коефіцієнт b0 є значимим;
    3. Коефіцієнт b1 є значимим;
    4. Інтервали довіри для β0 та β1 відповідно мають вид:

1 035,34 < β0 < 1 067,08

–0,82 < β1 < –0,48

    1. Інтервали довіри для прогнозованих значень відповідно мають вид:

958,18  < yn+1 < 1 057,15

995,52 < yn+2 < 1 096,5

 

ІІ)

Багатофакторна лінійна регресивна модель залежності кількості загальної площі всього житлового фонду (млн. м2) від:

    • у середньому на одного жителя, м2;
    • кількості чотири- і більше кімнатних квартир, усього, тис.;
    • кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис.;

має вигляд:

 

 

Отримана  регресійна модель є адекватною на рівні значущості α = 0,01 та α = 0,05.

 

    1. Вплив множинного коефіцієнту кореляції для наших початкових даних є значним. Знайдені дані точно відповідають фактичним.
    2. Коефіцієнти b0 та b1 є значимими, а коефіцієнти b2 та b3 не є значимим на рівні значущості α = 0,01 та α = 0,05.
    3. Інтервали довіри для коефіцієнтів мають вигляд:

 

165,65 < β0 < 572,88

226,30 < β0 < 512,50

6,16 < β1 < 28,64

9,49 < β1 < 25,31

-0,02 < β2 < 0,30

0,03 < β2 < 0,25

-0,01 < β3 < 0,03

-0,003 < β3 < 0,02


 

    1. Інтервал довіри для прогнозованого значення yn+k має вигляд:

1 086,44 < yn+k < 1 109,29

1 089,83 < yn+k < 1 105,9


 

Інтервал довіри для математичного  сподівання прогнозованого значення має вигляд:

1 087,85 < М(yn+k ) < 1 107,88

1 090,82 < М(yn+k ) < 1 104,91


 

На рівні  значущості α = 0,05 між факторами

  • 2 та 8,
  • 3 та 4,
  • 3 та 5,
  • 3 та 6,
  • 3 та 7,
  • 3 та 8,
  • 4 та 6,
  • 4 та 7,
  • 5 та 6,
  • 5 та 7,
  • 5 та 8,
  • 6 та 7,
  • 6 та 8

Информация о работе Анализ данных житлового фонду України у 1990-2009 роках