Статистический анализ средней продолжительности жизни в странах Африки

Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа

Краткое описание

Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.

Содержание

Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54

Вложенные файлы: 1 файл

курсийн ажил МСМ1.docx

— 453.45 Кб (Скачать файл)

 

Fнабл=15,573, R2 = 0,414

Уравнение значимо Fнабл=15,573 > Fkp(a=0,05;n1=2;n2=44)=3,209.  Для наблюдаемое значение t-статистики  больше критического tkp(a=0,05;n=44)=2,015 по модулю, следовательно, соответствующие коэффициенты значимы. Для наблюдаемое значение t-статистики меньше критического значения по модулю, следовательно, коэффициент незначим.

Учитывая, что главные  компоненты не коррелированы между собой, можно сразу исключить из уравнения незначимый коэффициент и уравнение примет вид:

 

Fнабл=15,573, R2 = 0,414

Множественный коэффициент  детерминации свидетельствует, что 41,4% вариации y обусловлено влиянием первых главных компонент.

 

6. Кластерный анализ

Для классификации исходных данных разумно использовать кластерный анализ. Для этого был проведен кластерный анализ и построены дендрограммы (рис.9, прилож.3) следующими 5 методами по квадратичесому евклидово растоянию: методом межгрупповых связей, методом ближайшего соседа, методом дальнего соседа, методом медианной кластеризации и методом Уорда. При анализе использовался пакет анализа данных SPSS.   

C A S E    0         5        10        15        20        25  

Label  Num  +---------+---------+---------+---------+---------+

 

 

          10   ─┐          

26   ─┤          

17   ─┤          

28   ─┤           

3   ─┤          

18   ─┤          

37   ─┤          

12   ─┤          

38   ─┤          

39   ─┤          

46   ─┤          

29   ─┤          

45   ─┤          

41   ─┤          

27   ─┤           

6   ─┤           

8   ─┤           

2   ─┤          

23   ─┤          

42   ─┤          

20   ─┼─────┐          

36   ─┤     │          

40   ─┤     │          

25   ─┤     │          

43   ─┤     │          

31   ─┤     │          

33   ─┤     │          

22   ─┤     │          

32   ─┤     │          

34   ─┤     │          

16   ─┤     │          

19   ─┤     │          

15   ─┤     ├─────────────────────────────────────────┐           

35   ─┤     │                                         │           

9   ─┤     │                                         │           

7   ─┤     │                                         │          

24   ─┤     │                                         │          

30   ─┤     │                                         │          

13   ─┤     │                                         │          

21   ─┤     │                                         │          

47   ─┤     │                                         │          

11   ─┤     │                                         │          

14   ─┘     │                                         │           

4   ─┬─┐   │                                         │           

5   ─┘ ├───┘                                         │           

1   ───┘                                             │          

44   ─────────────────────────────────────────────────┘

Рис. 9. Дендрограмма с использованием метода межгрупповых связей.

На всех дендрограммах наблюдаем, что количество наблюдений в кластерах распределено неравномерно. Предположим, что это происходит за счет влияния аномальных наблюдений. Уберем выбросы и проведем повторный анализ. По оставшимся 38 наблюдениям получены следующие дендрограммы (рис. 10, приложении 4).    

C A S E    0         5        10        15        20        25  

Label  Num  +---------+---------+---------+---------+---------+

 

 

           4   ─┐          

19   ─┤          

10   ─┤          

21   ─┼─┐           

1   ─┤ ├───┐          

11   ─┘ │   ├─────────┐          

29   ───┘   │         │          

20   ───────┘         ├───────────────────────────────┐           

33   ─┬───┐           │                               │          

36   ─┘   │           │                               │           

6   ─┐   ├───────────┘                               │          

30   ─┤   │                                           │          

31   ─┼───┘                                           │          

37   ─┘                                               │          

16   ─┐                                               │          

34   ─┼─┐                                             │          

13   ─┘ │                                             │          

28   ─┐ │                                             │          

32   ─┤ ├─────────┐                                   │          

18   ─┤ │         │                                   │          

35   ─┤ │         │                                   │          

23   ─┤ │         │                                   │          

25   ─┼─┘         │                                   │          

15   ─┤           │                                   │          

24   ─┤           │                                   │          

26   ─┤           ├───────────────────────────────────┘            

9   ─┤           │          

12   ─┘           │           

8   ─┐           │          

27   ─┤           │           

3   ─┼─────┐     │           

2   ─┘     │     │          

17   ─┬─┐   ├─────┘          

22   ─┘ │   │           

7   ─┐ ├───┘          

14   ─┤ │          

38   ─┼─┘           

5   ─┘

Рис. 10. Дендрограмма с использованием метода межгрупповых связей.

По полученным дендрограммам можно сделать вывод о том, что данные имеет смысл разбивать на два кластера, что было сделано с помощью метода К-средних. Результаты представлены в таблицах 16-18.

 

Таблица 16

Принадлежность  к кластерам

Case Number

Cluster

Distance

1

1

301,301

2

2

255,458

3

2

418,676

4

1

244,111

5

2

373,892

6

1

387,249

7

2

296,716

8

2

376,606

9

2

219,513

10

1

281,227

11

1

325,389

12

2

76,977

13

2

240,795

14

2

315,467

15

2

175,624

16

2

119,375

17

2

148,736

18

2

248,886

19

1

236,907

20

1

190,516

21

1

268,934

22

2

108,132

23

2

302,432

24

2

140,858

25

2

331,669

26

2

150,865

27

2

350,300

28

2

222,991

29

1

175,832

30

1

434,289

31

1

417,191

32

2

246,481

33

1

232,884

34

2

158,061

35

2

268,539

36

1

74,050

37

1

277,493

38

2

368,950


Таблица 17

Конечные центры кластеров

 

Cluster

 

1

2

y

44,63

48,74

x1

1003,86

141,96

x2

17,37

7,01

x3

6,04

5,72

x4

17,36

15,79

x5

107,00

94,75

x6

252,14

451,25


Таблица 18

Число наблюдений в каждом кластере

Cluster

1

14,000

2

24,000

Valid

38,000

Missing

,000


Таким образом, все наблюдении разделились на два кластера. Большенство наблюдений относятся к второму кластеру (24 страны), который отличается от первого кластера высокое значение результативного признака Y (ожидаемая продолжительность жизни населения при рождении), факторного признака X6 (ВНП на 1 жителя) и низкое значение факторных признаков X1 (территория), X2 (численность населения), X4 (коэффициент смертности), X5 (коэффициент младенческой смертности на 1000 рождений) (рис.11, 12).

Рис. 11. Средние значения показателей для каждого кластера

Рис. 12. Средние значения показателей для каждого кластера

Для каждого кластера построим регрессионный модель методом пошагового включения переменных. В результате в модель первого кластера включили факторные признакы X3 (коэффициент суммарной рождаемости число детей на 1 женщину), X4 (коэффициент смертности) и X5 (коэффициент младенческой смертности на 1000 рождений) (табл. 19-21).

Таблица 19

Сводка для  модели

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

,944a

,891

,858

2,74125

a. Predictors: (Constant), x5, x4, x3

 

 

Таблица 20

Дисперсионный анализb

Model

Sum of Squares

df

Mean Square

F

Sig.

1

Regression

612,015

3

204,005

27,148

,000a

Residual

75,145

10

7,514

   

Total

687,160

13

     

a. Predictors: (Constant), x5, x4, x3

     

b. Dependent Variable: y

       

 

Таблица 21

Коэффициентыa

Model

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

1

(Constant)

57,111

5,276

 

10,825

,000

x3

8,210

1,501

,993

5,468

,000

x4

-1,585

,308

-,786

-5,151

,000

x5

-,323

,069

-,877

-4,664

,001

a. Dependent Variable: y

       

Уравнение регрессии:

Ỹ=57,11+8,21X3 - 1,585X4 - 0,323X5

Fнабл=27,15,

Уравнение значимо Fнабл=27,15 > Fkp(a=0,05;n1=3;n2=10)=3,7. Значимы и коэффициенты уравнения, ½tj½>tkp(a=0,05;n=10)=2,23 для j=0,3,4,5.  Множественный коэффициент детерминации свидетельствует, что 89,1% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом суммарной рождаемости число детей на 1 женщину(X3), коэффициентом смертности на 1000 жителей (X4) и коэффициентом младенческой смертности на 1000 рождений (X5), а  10,9% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.

В модель второго кластера включили только один факторный признак X4 (коэффициент смертности) (табл. 22-24).

Информация о работе Статистический анализ средней продолжительности жизни в странах Африки