Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа
Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.
Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54
Fнабл=15,573, R2 = 0,414
Уравнение значимо Fнабл=15,573 > Fkp(a=0,05;n1=2;n2=44)=3,209. Для наблюдаемое значение t-статистики больше критического tkp(a=0,05;n=44)=2,015 по модулю, следовательно, соответствующие коэффициенты значимы. Для наблюдаемое значение t-статистики меньше критического значения по модулю, следовательно, коэффициент незначим.
Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения незначимый коэффициент и уравнение примет вид:
Fнабл=15,573, R2 = 0,414
Множественный коэффициент детерминации свидетельствует, что 41,4% вариации y обусловлено влиянием первых главных компонент.
Для классификации исходных данных разумно использовать кластерный анализ. Для этого был проведен кластерный анализ и построены дендрограммы (рис.9, прилож.3) следующими 5 методами по квадратичесому евклидово растоянию: методом межгрупповых связей, методом ближайшего соседа, методом дальнего соседа, методом медианной кластеризации и методом Уорда. При анализе использовался пакет анализа данных SPSS.
C A S E 0 5
Label Num +---------+-------
10 ─┐
26 ─┤
17 ─┤
28 ─┤
3 ─┤
18 ─┤
37 ─┤
12 ─┤
38 ─┤
39 ─┤
46 ─┤
29 ─┤
45 ─┤
41 ─┤
27 ─┤
6 ─┤
8 ─┤
2 ─┤
23 ─┤
42 ─┤
20 ─┼─────┐
36 ─┤ │
40 ─┤ │
25 ─┤ │
43 ─┤ │
31 ─┤ │
33 ─┤ │
22 ─┤ │
32 ─┤ │
34 ─┤ │
16 ─┤ │
19 ─┤ │
15 ─┤ ├─────────────────
35 ─┤ │
9 ─┤ │
7 ─┤ │
24 ─┤ │
30 ─┤ │
13 ─┤ │
21 ─┤ │
47 ─┤ │
11 ─┤ │
14 ─┘ │
4 ─┬─┐ │
5 ─┘ ├───┘
1 ───┘
44 ─────────────────────────
Рис. 9. Дендрограмма с использованием метода межгрупповых связей.
На всех дендрограммах наблюдаем, что количество наблюдений в кластерах распределено неравномерно. Предположим, что это происходит за счет влияния аномальных наблюдений. Уберем выбросы и проведем повторный анализ. По оставшимся 38 наблюдениям получены следующие дендрограммы (рис. 10, приложении 4).
C A S E 0 5
Label Num +---------+-------
4 ─┐
19 ─┤
10 ─┤
21 ─┼─┐
1 ─┤ ├───┐
11 ─┘ │ ├─────────┐
29 ───┘ │ │
20 ───────┘ ├───────
33 ─┬───┐ │
36 ─┘ │ │
6 ─┐ ├───────────┘
30 ─┤ │
31 ─┼───┘
37 ─┘
16 ─┐
34 ─┼─┐
13 ─┘ │
28 ─┐ │
32 ─┤ ├─────────┐
18 ─┤ │ │
35 ─┤ │ │
23 ─┤ │ │
25 ─┼─┘ │
15 ─┤ │
24 ─┤ │
26 ─┤ ├───────────
9 ─┤ │
12 ─┘ │
8 ─┐ │
27 ─┤ │
3 ─┼─────┐ │
2 ─┘ │ │
17 ─┬─┐ ├─────┘
22 ─┘ │ │
7 ─┐ ├───┘
14 ─┤ │
38 ─┼─┘
5 ─┘
Рис. 10. Дендрограмма с использованием метода межгрупповых связей.
По полученным дендрограммам можно сделать вывод о том, что данные имеет смысл разбивать на два кластера, что было сделано с помощью метода К-средних. Результаты представлены в таблицах 16-18.
Таблица 16
Принадлежность к кластерам
Case Number |
Cluster |
Distance |
1 |
1 |
301,301 |
2 |
2 |
255,458 |
3 |
2 |
418,676 |
4 |
1 |
244,111 |
5 |
2 |
373,892 |
6 |
1 |
387,249 |
7 |
2 |
296,716 |
8 |
2 |
376,606 |
9 |
2 |
219,513 |
10 |
1 |
281,227 |
11 |
1 |
325,389 |
12 |
2 |
76,977 |
13 |
2 |
240,795 |
14 |
2 |
315,467 |
15 |
2 |
175,624 |
16 |
2 |
119,375 |
17 |
2 |
148,736 |
18 |
2 |
248,886 |
19 |
1 |
236,907 |
20 |
1 |
190,516 |
21 |
1 |
268,934 |
22 |
2 |
108,132 |
23 |
2 |
302,432 |
24 |
2 |
140,858 |
25 |
2 |
331,669 |
26 |
2 |
150,865 |
27 |
2 |
350,300 |
28 |
2 |
222,991 |
29 |
1 |
175,832 |
30 |
1 |
434,289 |
31 |
1 |
417,191 |
32 |
2 |
246,481 |
33 |
1 |
232,884 |
34 |
2 |
158,061 |
35 |
2 |
268,539 |
36 |
1 |
74,050 |
37 |
1 |
277,493 |
38 |
2 |
368,950 |
Таблица 17
Конечные центры кластеров
Cluster | ||
1 |
2 | |
y |
44,63 |
48,74 |
x1 |
1003,86 |
141,96 |
x2 |
17,37 |
7,01 |
x3 |
6,04 |
5,72 |
x4 |
17,36 |
15,79 |
x5 |
107,00 |
94,75 |
x6 |
252,14 |
451,25 |
Таблица 18
Число наблюдений в каждом кластере
Cluster |
1 |
14,000 |
2 |
24,000 | |
Valid |
38,000 | |
Missing |
,000 |
Таким образом, все наблюдении разделились на два кластера. Большенство наблюдений относятся к второму кластеру (24 страны), который отличается от первого кластера высокое значение результативного признака Y (ожидаемая продолжительность жизни населения при рождении), факторного признака X6 (ВНП на 1 жителя) и низкое значение факторных признаков X1 (территория), X2 (численность населения), X4 (коэффициент смертности), X5 (коэффициент младенческой смертности на 1000 рождений) (рис.11, 12).
Рис. 11. Средние значения показателей для каждого кластера
Рис. 12. Средние значения показателей для каждого кластера
Для каждого кластера построим регрессионный модель методом пошагового включения переменных. В результате в модель первого кластера включили факторные признакы X3 (коэффициент суммарной рождаемости число детей на 1 женщину), X4 (коэффициент смертности) и X5 (коэффициент младенческой смертности на 1000 рождений) (табл. 19-21).
Таблица 19
Сводка для модели
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,944a |
,891 |
,858 |
2,74125 |
a. Predictors: (Constant), x5, x4, x3 |
Таблица 20
Дисперсионный анализb
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
1 |
Regression |
612,015 |
3 |
204,005 |
27,148 |
,000a |
Residual |
75,145 |
10 |
7,514 |
|||
Total |
687,160 |
13 |
||||
a. Predictors: (Constant), x5, x4, x3 |
||||||
b. Dependent Variable: y |
Таблица 21
Коэффициентыa
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. | ||
B |
Std. Error |
Beta | ||||
1 |
(Constant) |
57,111 |
5,276 |
10,825 |
,000 | |
x3 |
8,210 |
1,501 |
,993 |
5,468 |
,000 | |
x4 |
-1,585 |
,308 |
-,786 |
-5,151 |
,000 | |
x5 |
-,323 |
,069 |
-,877 |
-4,664 |
,001 | |
a. Dependent Variable: y |
Уравнение регрессии:
Ỹ=57,11+8,21X3 - 1,585X4 - 0,323X5
Fнабл=27,15,
Уравнение значимо Fнабл=27,15 > Fkp(a=0,05;n1=3;n2=10)=3,7. Значимы и коэффициенты уравнения, ½tj½>tkp(a=0,05;n=10)=2,23 для j=0,3,4,5. Множественный коэффициент детерминации свидетельствует, что 89,1% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом суммарной рождаемости число детей на 1 женщину(X3), коэффициентом смертности на 1000 жителей (X4) и коэффициентом младенческой смертности на 1000 рождений (X5), а 10,9% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.
В модель второго кластера включили только один факторный признак X4 (коэффициент смертности) (табл. 22-24).
Информация о работе Статистический анализ средней продолжительности жизни в странах Африки