Статистический анализ средней продолжительности жизни в странах Африки

Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа

Краткое описание

Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.

Содержание

Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54

Вложенные файлы: 1 файл

курсийн ажил МСМ1.docx

— 453.45 Кб (Скачать файл)

1. Тесная связь наблюдается  между изучаемым признаком Y – ожидаемая продолжительность жизни населения при рождении и факторным признаком X4 – коэффициент смертности на 1000 жителей.

2. Связь между изучаемым  признаком Y  и факторными признаками X3 и X6 не подтвердилась при вычислении частных коэффициентов корреляции.

3. Наиболее сильная связь, выявленная на этапе расчёта парных коэффициентов корреляции, между факторными признаками X2 и X6, подтвердилась при вычислении частных коэффициентов корреляции.

4. Взаимосвязи между факторными признаками X1 и X2, X1 и X6, X3 и X4, X4 и X6, X5 и X6 не подтвердились при вычислении частных коэффициентов корреляции.

5. Воздействие других переменных усиливает взаимосвязь практически всех переменных. Так как их частные коэффиценты меньше чем парные.

4.3. Расчет множественных коэффициентов корреляции

Множественные коэффициенты корреляции служат мерой связи одной  переменной с совместным действием  всех остальных показателей.

Таблица 8.

Множественные  коэффициенты корреляции и детерминации исследуемых  показателей с выделением значимых коэффициентов (при α=0,05)

Множественный коэффициент  корреляции

Множественный коэффициент  детерминации r2

Значение статистики

F набл

rY /{..}

0,7609

0,5790

9,1693

rX1/{..}

0,5009

0,2509

2,2330

rX2/{..}

0,7895

0,6233

11,0287

rX3/{..}

0,6243

0,3898

4,2585

rX4/{..}

0,8379

0,7021

15,7154

rX5/{..}

0,7516

0,5650

8,6573

rX6/{..}

0,8189

0,6705

13,5673


Для определения значимости множественных коэффициентов корреляции и детерминации нужно найти критическое  значение F-распределения для заданного уровня значимости α и числа степеней свободы числителя ν1=l и знаменателя ν2=n-l-1.

Получаем  Fкр(0,05; 6; 40)=2,3358.

Если наблюдаемое значение F-статистики превосходит ее критическое значение  Fкр=2,3358, то гипотеза о равенстве нулю соответствующего множественного коэффициента корреляции отвергается с вероятностью ошибки, равной 0,05. Следовательно, у нас все коэффициенты, кроме rX1/{..}, значимо отличаются от нуля.

Полученные данные позволяют  сделать следующие выводы.

Множественный коэффициент  корреляции rY/{..} =0,7609 значим и имеет достаточно высокое значение, что говорит о том, показатель Y – ожидаемая продолжительность жизни населения при рождении имеет тесную связь с многомерным массивом факторных признаков X1 – территория стран, X2 – численность населения,  X3 - коэффициент суммарной рождаемости число детей на 1 женщину,  X4 – коэффициент смертности на 1000 жителей, X5– коэффициент младенческой смертности на 1000 рождений и X6 – ВНП на 1 жителя.

Множественный коэффициент  детерминации показывает r2Y/{..} =0,5790, что 57,9%  доли дисперсии Y – ожидаемая продолжительность жизни населения, обусловлены изменениями факторных признаков.

Факторные признаки  тоже имеют достаточно высокие значения множественных коэффициентов корреляции и детерминации, что говорит об их сильной взаимосвязанности.

 

5. Компонентный анализ

Исходной для компонентного  анализа является матрица Х размерности (47x6), т.е. матрица, полученная из табл.1 отбрасыванием двух первых столбцов.

Найдем собственные значения и на их основе вклад главных компонент в суммарную дисперсию исходных показателей x(1), x(2), x(3), x(4), x(5) x(6) с помощью пакета анализа данных SPSS. (табл.9).

Таблица 9.

Собственные значения главных компонент

Component

Initial Eigenvalues

Extraction Sums of Squared Loadings

Rotation Sums of Squared Loadings

Total

% of Variance

Cumulative %

Total

% of Variance

Cumulative %

Total

% of Variance

Cumulative %

1

2,952

49,195

49,195

2,952

49,195

49,195

2,897

48,276

48,276

2

1,452

24,193

73,387

1,452

24,193

73,387

1,507

25,112

73,387

3

,640

10,670

84,058

           

4

,468

7,801

91,858

           

5

,264

4,392

96,251

           

6

,225

3,749

100,000

           

Extraction Method: Principal Component Analysis.

           

Согласно критерию Кайзера  отбираются только те факторы, собственные  значения которых больше единицы  (первая и вторая компоненты).

Первый фактор объясняет 49,19% сумарной дисперсии, второй – 24,19%. При этом общий вклад двух первых главных компонент в суммарную дисперсию составляет 73,388%, будем использовать их при построении моделей регрессии.

Собственные значения для  последовательных факторов можно отобразить на обычном линейном графике. Для  графического определения оптимального числа факторов Кеттел предложил  использовать критерий “каменистой осыпи”.

Критерий “каменистой  осыпи” состоит в поиске точки, где убывание собственных значений замедляется наиболее сильно. Справа от этой точки находится только “факториальная осыпь”, “осыпь” – это геологический термин для обломков, которые скапливаются в нижней части каменистого склона. Таким образом, число выделенных факторов не должно превышать количество факторов слева от этой точки(6).

Рис.7. Критерий “каменистой осыпи”

Таблица 10.

Матрица факторных  нагрузок

 

Component

 

1

2

x1

-,026

,828

x2

-,073

,857

x3

,900

-,006

x4

,776

-,236

x5

,895

-,124

x6

-,823

-,122


Из матрицы факторной  нагрузки следует, что первая главная  компонента наиболее тесно связана  с показателями: x(3) — коэффициент суммарной рождаемости число детей на 1 женщину (r(x(1), z(1))=0,90); x(4) — коэффициент смертности на 1000 жителей (r(x(2), z(1))=0,776); x(5) — коэффициент младенческой смертности на 1000 рождений (r(x(3), z(1))=0,895); x(6) - ВНП на 1 жителя (r(x(3), z(1))= -0,823). Вторая главная компонента z(2) тесно связана с территорией (x(1)) и численностью населения (x(2)).

Построение диаграммы  рассеивания

Рис. 8. Диаграмм рассеивания для главных компонент

Уравнение регрессии на главных  компонентах

Уравнение регрессии на главных  компонентах строится по данным вектора  значений результативного показателя Y и матрицы значений нормированных1 главных компонент Zн, представленных в табл. 11.

Таблица 11.

Значения нормированных  главных компонент и Y

i

yi

zнi(j)

zнi(j)

1

70,54

-1,4376

2,46

2

70,41

-1,5589

2,0662

3

55,4

-0,4613

1,3013

4

74,4

-2,1398

0,428

5

49,3

-1,851

1,2197

6

32,26

-0,5173

-0,5398

7

36,94

-0,7007

-0,859

8

42,77

-0,1464

-0,2209

9

39,47

-0,6905

-0,8278

10

36,96

1,0785

0,6751

11

48,05

-0,4039

0,0427

12

41,71

0,1254

-0,2547

13

50,02

0,1049

-0,6181

14

57,12

-0,0094

-0,7558

15

54,75

0,1155

-0,9943

16

66,28

-0,5261

-0,7080

17

48,51

0,8195

0,6045

18

48,93

0,8493

1,3667

19

51,08

0,2084

-0,5770

20

44,46

0,6022

-0,3129

21

56,8

0,2463

-0,1856

22

54,38

0,6490

-1,0006

23

56,53

-0,5205

0,0148

24

49,54

0,6329

-0,5797

25

46,97

0,9376

-1,0011

26

45,43

0,8594

0,6922

27

51,93

-0,0371

0,2423

28

42,21

1,5488

0,5491

29

51,01

0,1751

3,3941

30

56,37

-0,3095

-0,4086

31

42,84

0,9103

-0,7460

32

53,43

-0,1250

-0,7356

33

43,2

0,6586

-0,7138

34

61,18

-0,5464

-0,8080

35

43,13

0,2651

-0,9704

36

53,18

0,0139

-0,5929

37

41,24

1,3364

1,0721

38

45,22

-0,3556

0,5013

39

56,14

0,2328

0,1504

40

37,98

1,1417

-0,7313

41

31,3

0,8385

0,3540

42

44,88

0,6321

-0,0608

43

39,33

0,5919

-0,7132

44

71,25

-3,9563

-1,6871

45

44,56

0,4244

0,9250

46

35,25

0,8692

-0,0470

47

39,01

-0,5747

-0,4098


Некоррелированность главных  компонент между собой и тесноту  их связи с результативным показателем y показывает матрица парных коэффициентов корреляции (табл. 12).

Таблица 12.

Корреляционная  матрица

 

y

z1

z2

y

1

-0,62677

0,14711

z1

-0,62677

1

0,0000

z2

0,14711

0,0000

1


 

Так как r(z(1),z(2))=0, следовательно, главные компоненты некоррелированы между собой.

Уравнение регрессии на главных  компонентах строим с помощью пакета анализа данных SPSS по алгоритму пошагового включения. Результат представлен в табл.13-15.

Таблица 13.

Регрессионная статистика

Model Summary

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

,644a

,414

,388

8,01446

a. Predictors: (Constant), REGR factor score   2 for analysis 1, REGR factor score   1 for analysis 1


 

Таблица 14.

Дисперсионный анализ

ANOVAb

Model

Sum of Squares

df

Mean Square

F

Sig.

1

Regression

2000,616

2

1000,308

15,573

,000a

Residual

2826,191

44

64,232

   

Total

4826,807

46

     

a. Predictors: (Constant), REGR factor score   2 for analysis 1, REGR factor score   1 for analysis 1

b. Dependent Variable: y

       

 

Таблица 15.

Коэффиценты

Model

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

B

Std. Error

Beta

1

(Constant)

49,227

1,169

 

42,109

,000

REGR factor score   1 for analysis 1

-6,420

1,182

-,627

-5,433

,000

REGR factor score   2 for analysis 1

1,507

1,182

,147

1,275

,209

a. Dependent Variable: y

         

Информация о работе Статистический анализ средней продолжительности жизни в странах Африки