Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа
Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.
Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54
1. Тесная связь наблюдается между изучаемым признаком Y – ожидаемая продолжительность жизни населения при рождении и факторным признаком X4 – коэффициент смертности на 1000 жителей.
2. Связь между изучаемым признаком Y и факторными признаками X3 и X6 не подтвердилась при вычислении частных коэффициентов корреляции.
3. Наиболее сильная связь, выявленная на этапе расчёта парных коэффициентов корреляции, между факторными признаками X2 и X6, подтвердилась при вычислении частных коэффициентов корреляции.
4. Взаимосвязи между факторными признаками X1 и X2, X1 и X6, X3 и X4, X4 и X6, X5 и X6 не подтвердились при вычислении частных коэффициентов корреляции.
5. Воздействие других переменных усиливает взаимосвязь практически всех переменных. Так как их частные коэффиценты меньше чем парные.
4.3. Расчет множественных коэффициентов корреляции
Множественные коэффициенты корреляции служат мерой связи одной переменной с совместным действием всех остальных показателей.
Таблица 8.
Множественные коэффициенты корреляции и детерминации исследуемых показателей с выделением значимых коэффициентов (при α=0,05)
Множественный коэффициент корреляции |
Множественный коэффициент детерминации r2 |
Значение статистики | |
F набл | |||
rY /{..} |
0,7609 |
0,5790 |
9,1693 |
rX1/{..} |
0,5009 |
0,2509 |
2,2330 |
rX2/{..} |
0,7895 |
0,6233 |
11,0287 |
rX3/{..} |
0,6243 |
0,3898 |
4,2585 |
rX4/{..} |
0,8379 |
0,7021 |
15,7154 |
rX5/{..} |
0,7516 |
0,5650 |
8,6573 |
rX6/{..} |
0,8189 |
0,6705 |
13,5673 |
Для определения значимости
множественных коэффициентов
Получаем Fкр(0,05; 6; 40)=2,3358.
Если наблюдаемое значение F-статистики превосходит ее критическое значение Fкр=2,3358, то гипотеза о равенстве нулю соответствующего множественного коэффициента корреляции отвергается с вероятностью ошибки, равной 0,05. Следовательно, у нас все коэффициенты, кроме rX1/{..}, значимо отличаются от нуля.
Полученные данные позволяют сделать следующие выводы.
Множественный коэффициент корреляции rY/{..} =0,7609 значим и имеет достаточно высокое значение, что говорит о том, показатель Y – ожидаемая продолжительность жизни населения при рождении имеет тесную связь с многомерным массивом факторных признаков X1 – территория стран, X2 – численность населения, X3 - коэффициент суммарной рождаемости число детей на 1 женщину, X4 – коэффициент смертности на 1000 жителей, X5– коэффициент младенческой смертности на 1000 рождений и X6 – ВНП на 1 жителя.
Множественный коэффициент детерминации показывает r2Y/{..} =0,5790, что 57,9% доли дисперсии Y – ожидаемая продолжительность жизни населения, обусловлены изменениями факторных признаков.
Факторные признаки тоже
имеют достаточно высокие значения
множественных коэффициентов
Исходной для компонентного анализа является матрица Х размерности (47x6), т.е. матрица, полученная из табл.1 отбрасыванием двух первых столбцов.
Найдем собственные значения и на их основе вклад главных компонент в суммарную дисперсию исходных показателей x(1), x(2), x(3), x(4), x(5) x(6) с помощью пакета анализа данных SPSS. (табл.9).
Таблица 9.
Собственные значения главных компонент
Component |
Initial Eigenvalues |
Extraction Sums of Squared Loadings |
Rotation Sums of Squared Loadings | ||||||
Total |
% of Variance |
Cumulative % |
Total |
% of Variance |
Cumulative % |
Total |
% of Variance |
Cumulative % | |
1 |
2,952 |
49,195 |
49,195 |
2,952 |
49,195 |
49,195 |
2,897 |
48,276 |
48,276 |
2 |
1,452 |
24,193 |
73,387 |
1,452 |
24,193 |
73,387 |
1,507 |
25,112 |
73,387 |
3 |
,640 |
10,670 |
84,058 |
||||||
4 |
,468 |
7,801 |
91,858 |
||||||
5 |
,264 |
4,392 |
96,251 |
||||||
6 |
,225 |
3,749 |
100,000 |
||||||
Extraction Method: Principal Component Analysis. |
Согласно критерию Кайзера отбираются только те факторы, собственные значения которых больше единицы (первая и вторая компоненты).
Первый фактор объясняет 49,19% сумарной дисперсии, второй – 24,19%. При этом общий вклад двух первых главных компонент в суммарную дисперсию составляет 73,388%, будем использовать их при построении моделей регрессии.
Собственные значения для последовательных факторов можно отобразить на обычном линейном графике. Для графического определения оптимального числа факторов Кеттел предложил использовать критерий “каменистой осыпи”.
Критерий “каменистой осыпи” состоит в поиске точки, где убывание собственных значений замедляется наиболее сильно. Справа от этой точки находится только “факториальная осыпь”, “осыпь” – это геологический термин для обломков, которые скапливаются в нижней части каменистого склона. Таким образом, число выделенных факторов не должно превышать количество факторов слева от этой точки(6).
Рис.7. Критерий “каменистой осыпи”
Таблица 10.
Матрица факторных нагрузок
Component | ||
1 |
2 | |
x1 |
-,026 |
,828 |
x2 |
-,073 |
,857 |
x3 |
,900 |
-,006 |
x4 |
,776 |
-,236 |
x5 |
,895 |
-,124 |
x6 |
-,823 |
-,122 |
Из матрицы факторной нагрузки следует, что первая главная компонента наиболее тесно связана с показателями: x(3) — коэффициент суммарной рождаемости число детей на 1 женщину (r(x(1), z(1))=0,90); x(4) — коэффициент смертности на 1000 жителей (r(x(2), z(1))=0,776); x(5) — коэффициент младенческой смертности на 1000 рождений (r(x(3), z(1))=0,895); x(6) - ВНП на 1 жителя (r(x(3), z(1))= -0,823). Вторая главная компонента z(2) тесно связана с территорией (x(1)) и численностью населения (x(2)).
Построение диаграммы рассеивания
Рис. 8. Диаграмм рассеивания для главных компонент
Уравнение регрессии на главных компонентах
Уравнение регрессии на главных компонентах строится по данным вектора значений результативного показателя Y и матрицы значений нормированных1 главных компонент Zн, представленных в табл. 11.
Таблица 11.
Значения нормированных главных компонент и Y
i |
yi |
zнi(j) |
zнi(j) |
1 |
70,54 |
-1,4376 |
2,46 |
2 |
70,41 |
-1,5589 |
2,0662 |
3 |
55,4 |
-0,4613 |
1,3013 |
4 |
74,4 |
-2,1398 |
0,428 |
5 |
49,3 |
-1,851 |
1,2197 |
6 |
32,26 |
-0,5173 |
-0,5398 |
7 |
36,94 |
-0,7007 |
-0,859 |
8 |
42,77 |
-0,1464 |
-0,2209 |
9 |
39,47 |
-0,6905 |
-0,8278 |
10 |
36,96 |
1,0785 |
0,6751 |
11 |
48,05 |
-0,4039 |
0,0427 |
12 |
41,71 |
0,1254 |
-0,2547 |
13 |
50,02 |
0,1049 |
-0,6181 |
14 |
57,12 |
-0,0094 |
-0,7558 |
15 |
54,75 |
0,1155 |
-0,9943 |
16 |
66,28 |
-0,5261 |
-0,7080 |
17 |
48,51 |
0,8195 |
0,6045 |
18 |
48,93 |
0,8493 |
1,3667 |
19 |
51,08 |
0,2084 |
-0,5770 |
20 |
44,46 |
0,6022 |
-0,3129 |
21 |
56,8 |
0,2463 |
-0,1856 |
22 |
54,38 |
0,6490 |
-1,0006 |
23 |
56,53 |
-0,5205 |
0,0148 |
24 |
49,54 |
0,6329 |
-0,5797 |
25 |
46,97 |
0,9376 |
-1,0011 |
26 |
45,43 |
0,8594 |
0,6922 |
27 |
51,93 |
-0,0371 |
0,2423 |
28 |
42,21 |
1,5488 |
0,5491 |
29 |
51,01 |
0,1751 |
3,3941 |
30 |
56,37 |
-0,3095 |
-0,4086 |
31 |
42,84 |
0,9103 |
-0,7460 |
32 |
53,43 |
-0,1250 |
-0,7356 |
33 |
43,2 |
0,6586 |
-0,7138 |
34 |
61,18 |
-0,5464 |
-0,8080 |
35 |
43,13 |
0,2651 |
-0,9704 |
36 |
53,18 |
0,0139 |
-0,5929 |
37 |
41,24 |
1,3364 |
1,0721 |
38 |
45,22 |
-0,3556 |
0,5013 |
39 |
56,14 |
0,2328 |
0,1504 |
40 |
37,98 |
1,1417 |
-0,7313 |
41 |
31,3 |
0,8385 |
0,3540 |
42 |
44,88 |
0,6321 |
-0,0608 |
43 |
39,33 |
0,5919 |
-0,7132 |
44 |
71,25 |
-3,9563 |
-1,6871 |
45 |
44,56 |
0,4244 |
0,9250 |
46 |
35,25 |
0,8692 |
-0,0470 |
47 |
39,01 |
-0,5747 |
-0,4098 |
Некоррелированность главных
компонент между собой и
Таблица 12.
Корреляционная матрица
y |
z1 |
z2 | |
y |
1 |
-0,62677 |
0,14711 |
z1 |
-0,62677 |
1 |
0,0000 |
z2 |
0,14711 |
0,0000 |
1 |
Так как r(z(1),z(2))=0, следовательно, главные компоненты некоррелированы между собой.
Уравнение регрессии на главных компонентах строим с помощью пакета анализа данных SPSS по алгоритму пошагового включения. Результат представлен в табл.13-15.
Таблица 13.
Регрессионная статистика
Model Summary | ||||
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,644a |
,414 |
,388 |
8,01446 |
a. Predictors: (Constant), REGR factor score 2 for analysis 1, REGR factor score 1 for analysis 1 |
Таблица 14.
Дисперсионный анализ
ANOVAb | ||||||
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
1 |
Regression |
2000,616 |
2 |
1000,308 |
15,573 |
,000a |
Residual |
2826,191 |
44 |
64,232 |
|||
Total |
4826,807 |
46 |
||||
a. Predictors: (Constant), REGR factor score 2 for analysis 1, REGR factor score 1 for analysis 1 | ||||||
b. Dependent Variable: y |
Таблица 15.
Коэффиценты | ||||||
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. | ||
B |
Std. Error |
Beta | ||||
1 |
(Constant) |
49,227 |
1,169 |
42,109 |
,000 | |
REGR factor score 1 for analysis 1 |
-6,420 |
1,182 |
-,627 |
-5,433 |
,000 | |
REGR factor score 2 for analysis 1 |
1,507 |
1,182 |
,147 |
1,275 |
,209 | |
a. Dependent Variable: y |
Информация о работе Статистический анализ средней продолжительности жизни в странах Африки