Статистический анализ средней продолжительности жизни в странах Африки

Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа

Краткое описание

Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.

Содержание

Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54

Вложенные файлы: 1 файл

курсийн ажил МСМ1.docx

— 453.45 Кб (Скачать файл)

Таблица 36

Поточечные статистики

 

Case Number

Actual Group

Highest Group

Second Highest Group

Discriminant Scores

Predicted Group

P(D>d | G=g)

P(G=g | D=d)

Squared Mahalanobis Distance to Centroid

Group

P(G=g | D=d)

Squared Mahalanobis Distance to Centroid

Function 1

p

df

Original

1

1

1

,078

1

1,000

3,108

2

,000

42,998

-4,791

2

2

2

,911

1

1,000

,012

1

,000

21,932

1,655

3

2

2

,390

1

1,000

,739

1

,000

31,967

2,626

4

1

1

,242

1

1,000

1,370

2

,000

35,582

-4,199

5

2

2

,123

1

,984

2,385

1

,016

10,563

,222

6

1

1

,170

1

,993

1,886

2

,007

11,704

-1,655

7

2

2

,439

1

1,000

,598

1

,000

16,169

,993

8

2

2

,063

1

1,000

3,451

1

,000

44,250

3,624

9

2

2

,432

1

1,000

,617

1

,000

31,138

2,552

10

1

1

,206

1

1,000

1,598

2

,000

36,704

-4,292

11

1

1

,185

1

1,000

1,756

2

,000

37,447

-4,353

12

2

2

,819

1

1,000

,052

1

,000

25,236

1,995

13

2

2

,484

1

1,000

,489

1

,000

16,770

1,067

14

2

2

,713

1

1,000

,135

1

,000

26,651

2,134

15

2

2

,645

1

1,000

,212

1

,000

27,614

2,227

16

2

2

,582

1

1,000

,303

1

,000

18,012

1,216

17

2

2

,802

1

1,000

,063

1

,000

20,643

1,515

18

2

2

,987

1

1,000

,000

1

,000

23,149

1,783

19

1

1

,285

1

1,000

1,143

2

,000

34,383

-4,097

20

1

1

,952

1

1,000

,004

2

,000

23,571

-3,089

21

1

1

,467

1

1,000

,528

2

,000

30,482

-3,755

22

2

2

,866

1

1,000

,028

1

,000

24,630

1,935

23

2

2

,719

1

1,000

,129

1

,000

19,667

1,407

24

2

2

,928

1

1,000

,008

1

,000

23,860

1,857

25

2

2

,975

1

1,000

,001

1

,000

23,293

1,798

26

2

2

,727

1

1,000

,122

1

,000

26,457

2,116

27

2

2

,224

1

1,000

1,479

1

,000

36,127

2,982

28

2

2

,772

1

1,000

,084

1

,000

20,290

1,476

29

1

1

,871

1

1,000

,026

2

,000

24,565

-3,190

30

1

1

,053

1

,902

3,742

2

,098

8,179

-1,094

31

1

1

,019

1

,559

5,512

2

,441

5,986

-,680

32

2

2

,641

1

1,000

,217

1

,000

18,735

1,300

33

1

1

,890

1

1,000

,019

2

,000

21,685

-2,890

34

2

2

,899

1

1,000

,016

1

,000

24,216

1,893

35

2

2

,889

1

1,000

,020

1

,000

21,663

1,626

36

1

1

,787

1

1,000

,073

2

,000

20,470

-2,758

37

1

1

,140

1

,988

2,183

2

,012

11,001

-1,550

38

2

2

,169

1

,993

1,890

1

,007

11,695

,392


 

Таблица 36 показывает, что при анализе поточечных статистик не обнаружилось неправильно классифицированных наблюдения. При пошаговом методе тоже подобная ситуация не наблюдалась.

 

Общие выводы по работе

Для написания курсовой выбрали тему «Статистический анализ средней ожидаемой продолжительности жизни населения в странах Африки». Для анализа были отобраны такие показатели как территория стран, численность населения, коэффициент суммарной рождаемости число детей на 1 женщину, коэффициент смертности на 1000 жителей, коэффициент младенческой смертности на 1000 рождений, ВНП на 1 жителя.

В первых трех пунктах данные были предварительно исследованы на аномальные наблюдения и выбросы и на нормальный закон распределения и были сделаны следующие выводы:

К числу выбросов были отнесены Сейшельские острова.

Закон о нормальном распределении  действует только для двух показателей  – Х4 (коэффициент смертности на 1000 жителей) и Х5 (коэффициент младенческой смертности на 1000 рождений).

Во четвертом разделе был проведен корреляционный анализ, по которому были сделаны следующие выводы:

Значимые корреляционные обратные взаимосвязи обнаружены между  изучаемым признаком Y – ожидаемая продолжительность жизни населения при рождении и факторными признаками: X3 – коэффициент рождаемости на 1000 жителей, X4 – коэффициент смертности на 1000 жителей и X5 – коэффициент младенческой смертности на 1000 рождений. Значимая корреляционная прямая взаимосвязь обнаружена между результативным признаком Y – ожидаемой продолжительностью жизни населения при рождении и факторным признаком X6 – ВВП по ППС.

Не все значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции подтвердились при вычислении частных коэффициентов корреляции. Связь между изучаемым признаком Y - ожидаемой продолжительностью жизни населения при рождении и факторными признаками X3 (коэффициент рождаемости на 1000 жителей) и X6 (ВВП по ППС) не подтвердилась при вычислении частных коэффициентов корреляции.

Наиболее сильная  связь, выявленная на этапе расчёта  парных коэффициентов корреляции, между факторными признаками X2 (численность населения) и  X6 (ВВП по ППС), подтвердилась при вычислении частных коэффициентов корреляции.

Взаимосвязи между факторными признаками X1 (территория) и X2(численность населения), X1 (территория) и X6(ВВП по ППС), X3 (коэффициент суммарной рождаемости число детей на 1 женщину)и X4(коэффициент смертности на 1000 жителей), X4 (коэффициент смертности на 1000 жителей) и X6(ВВП по ППС), X5 (коэффициент младенческой смертности на 1000 рождений) и X6(ВВП по ППС) не подтвердились при вычислении частных коэффициентов корреляции.

Воздействие других переменных усиливает взаимосвязь практически всех переменных. Так как их частные коэффиценты меньше чем парные.

Множественный коэффициент  корреляции rY/{..} =0,7609 значим и имеет достаточно высокое значение, что говорит о том, показатель Y – ожидаемая продолжительность жизни населения при рождении имеет тесную связь с многомерным массивом факторных признаков X1 – территория стран, X2 – численность населения,  X3 - коэффициент суммарной рождаемости число детей на 1 женщину,  X4 – коэффициент смертности на 1000 жителей, X5– коэффициент младенческой смертности на 1000 рождений и X6 – ВНП на 1 жителя.

Множественный коэффициент  детерминации показывает r2Y/{..} =0,5790, что 57,9%  доли дисперсии Y – ожидаемая продолжительность жизни населения, обусловлены изменениями факторных признаков.

Факторные признаки  тоже имеют достаточно высокие значения множественных коэффициентов корреляции и детерминации, что говорит об их сильной взаимосвязанности.

В пятом разделе был  проведен компонентный анализ и сделаны  следующие выводы:

Согласно критерию Кайзера  отбирали только первую и вторую компоненты. Первый фактор объясняет 49,19% сумарной дисперсии, второй – 24,19%. Первая главная компонента наиболее тесно связана с показателями: x(3) — коэффициент суммарной рождаемости число детей на 1 женщину (r(x(1), z(1))=0,90); x(4) — коэффициент смертности на 1000 жителей (r(x(2), z(1))=0,776); x(5) — коэффициент младенческой смертности на 1000 рождений (r(x(3), z(1))=0,895); x(6) - ВНП на 1 жителя (r(x(3), z(1))= -0,823). Вторая главная компонента z(2) тесно связана с территорией (x(1)) и численностью населения (x(2)).

Уравнение регрессии на главных  компонентах имеет вид:

 

Fнабл=15,573, R2 = 0,414

Множественный коэффициент  детерминации свидетельствует, что 41,4% вариации y обусловлено влиянием первых главных компонент.

В шестом разделе был проведен кластерный анализ и сделаны следующие выводы:

Все наблюдении разделились  на два кластера. Большенство наблюдений относятся к второму кластеру (24 страны), который отличается от первого кластера высокое значение результативного признака Y (ожидаемая продолжительность жизни населения при рождении), факторного признака X6 (ВНП на 1 жителя) и низкое значение факторных признаков X1 (территория), X2 (численность населения), X4 (коэффициент смертности), X5 (коэффициент младенческой смертности на 1000 рождений).

Уравнение регрессии первого кластера:

Ỹ=57,11+8,21X3 - 1,585X4 - 0,323X5

Fнабл=27,15,

 Множественный коэффициент детерминации свидетельствует, что 89,1% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом суммарной рождаемости число детей на 1 женщину(X3), коэффициентом смертности на 1000 жителей (X4) и коэффициентом младенческой смертности на 1000 рождений (X5), а  10,9% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.

Уравнение регрессии второго кластера:

Ỹ=63,926 - 0,962X4

 

Fнабл=6,87,

Множественный коэффициент  детерминации свидетельствует, что 23,8% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом смертности на 1000 жителей (X4) а  76,2% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель не адекватно отражает исследуемый процесс.

В седмом разделе при проведении дискриминантного анализа были получены следующие функции.

Пошаговым методом:

d = -2,243 + 0,005X1

Методом принудительного  включения:

d = -3,764 - 0,005Х1 + 0,018Х2 + 0,501Х3 + 0,046Х4 – 0,003Х5 + 0,003Х6

При анализе поточечных статистик  не обнаружилось неправильно классифицированных наблюдения. При пошаговом методе тоже подобная ситуация не наблюдалась.

 

 

 

Теоретическая часть

Метод групповых средних (Ланс и Уильямс )

В 1967 году Ланс и Уильямс определяли среднее сходство между двумя кластерами I и J как среднее сходство между всеми парами объектов из I и J. Этот метод они назвали методом групповых средних.

Кластеры строятся последовательно: два кластера с минимальным средним  коэффицентом сходства объединяются.

Как определить расстояние R(W, S) между кластерами W = U ∪ V и S, зная растояния их обьектов R(U, S), R(V, S), R(U, V)?

При определении расстояний между кластерами применяются следующие  методы:

  • одиночной связи или минимального локального расстояния
  • полной связи или максимального локального расстояния
  • средней связи Кинга или попарного арифметического среднего
  • метод групповых средних
  • центроидный метод (центр тяжести)
  • метод Уорда

 Ланс и Уильямс получили  общее уравнение для всех пяти  процессов кластеризации, перечисленных  выше. Это уравнение записанно  в следующем виде: R(U ∪ V, S) = αU・R(U, S) + αV・R(V, S) +β・R(U, V) + γ・|R(U, S) − R(V, S)|

где αU, αV , β, γ  числовые параметры.

Значения параметров, входящих в общую формулу, соответствующие  различным процессам кластеризации:

1. Расстояние ближнего  соседа: αU = αV = 1/2 ; β = 0;  γ = − 1/2 .

2. Расстояние дальнего  соседа: αU = αV = 1/2 ; β = 0;  γ =  1/2 .

3. Групповое среднее расстояние: αU = U/W;  αV = V/W;  β =  γ = 0

4. Расстояние между центрами: αU = U/W; αV = V/W; β = αU× αV ; γ = 0

5. Расстояние Уорда: αU = (S+U)/(S+W); αV = (S+V)/(S+W);

β = -S/(S+W) ; γ = 0

Алгоритм  кластеризации Ланса-Уильямса

1: сначала все кластеры  одноэлементные:

           t := 1; Ct = {x1}, . . . , {xℓ};

           R({xi}, {xj}) := ρ(xi , xj );

2: для всех t = 2, . . . , ℓ (t  номер итерации):

3: найти в Ct−1 два  ближайших кластера:

           (U, V) := arg min R(U, V);

            Rt := R(U, V);

4: слить их в один  кластер:

            W := U ∪ V;

            Ct := Ct−1 ∪ {W} \ {U, V};

5: для всех S ∈ Ct

6: вычислить R(W, S) по формуле  Ланса-Уильямса

Пример. Проведем класстеризацию, используя метод групповых средних и метрику квадрат евклидова расстояния и построим дендрограмму.

Предположим что, х1- культурные нужды и отдых, х2- питание и данные представлены в таблице 1.

Таблица 1

i

1

2

3

4

5

x1

2

4

7

10

12

x2

4

2

6

5

8


 

Квадрат евклидова расстояния находим по формуле:

Растояния мужду объектами представлены в табл. 2.

Таблица 2

 

1

2

3

4

5

1

0

8

29

65

116

2

8

0

25

45

100

3

29

25

0

10

29

4

65

45

10

0

13

5

116

100

29

13

0

Информация о работе Статистический анализ средней продолжительности жизни в странах Африки