Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа
Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.
Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54
Таблица 22
Сводка для модели
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,488a |
,238 |
,203 |
7,01715 |
a. Predictors: (Constant), x4 |
Таблица 23
Дисперсионный анализb
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
1 |
Regression |
338,346 |
1 |
338,346 |
6,871 |
,016a |
Residual |
1083,289 |
22 |
49,240 |
|||
Total |
1421,635 |
23 |
||||
a. Predictors: (Constant), x4 |
||||||
b. Dependent Variable: y |
Таблица 24
Коэффициентыa
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. | ||
B |
Std. Error |
Beta | ||||
1 |
(Constant) |
63,926 |
5,967 |
10,713 |
,000 | |
x4 |
-,962 |
,367 |
-,488 |
-2,621 |
,016 | |
a. Dependent Variable: y |
Уравнение регрессии:
Ỹ=63,926 - 0,962X4
Fнабл=6,87,
Уравнение значимо Fнабл=6,87 > Fkp(a=0,05;n1=1;n2=22)=4,3. Значимы и коэффициенты уравнения, ½tj½>tkp(a=0,05;n=22)=2,07 для j=0,4. Множественный коэффициент детерминации свидетельствует, что 23,8% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом смертности на 1000 жителей (X4) а 76,2% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель не адекватно отражает исследуемый процесс.
При проведении дискриминантного анализа был использован пакет анализа данных SPSS. Анализ проводился как пошаговым методом, так и методом принудительного включения. Результаты пошагового метода представлены в нижеприведенных таблицах.
Таблица 25
Групповые статистики
Cluster Number of Case |
Mean |
Std. Deviation |
Valid N (listwise) | ||
Unweighted |
Weighted | ||||
1 |
x3 |
6,0357 |
,87934 |
14 |
14,000 |
x4 |
17,3571 |
3,60784 |
14 |
14,000 | |
x5 |
1,0700E2 |
19,75231 |
14 |
14,000 | |
x6 |
2,5214E2 |
96,49062 |
14 |
14,000 | |
x1 |
1,0039E3 |
284,44138 |
14 |
14,000 | |
x2 |
17,3714 |
11,01058 |
14 |
14,000 | |
y |
44,6279 |
7,26783 |
14 |
14,000 | |
2 |
x3 |
5,7208 |
,68650 |
24 |
24,000 |
x4 |
15,7917 |
3,98889 |
24 |
24,000 | |
x5 |
94,7500 |
26,54979 |
24 |
24,000 | |
x6 |
4,5125E2 |
227,90754 |
24 |
24,000 | |
x1 |
1,4196E2 |
141,35047 |
24 |
24,000 | |
x2 |
7,0121 |
6,42792 |
24 |
24,000 | |
y |
48,7417 |
7,86195 |
24 |
24,000 | |
Total |
x3 |
5,8368 |
,76703 |
38 |
38,000 |
x4 |
16,3684 |
3,87941 |
38 |
38,000 | |
x5 |
99,2632 |
24,72080 |
38 |
38,000 | |
x6 |
3,7789E2 |
212,21048 |
38 |
38,000 | |
x1 |
4,5950E2 |
467,30566 |
38 |
38,000 | |
x2 |
10,8287 |
9,69152 |
38 |
38,000 | |
y |
47,2261 |
7,81190 |
38 |
38,000 |
В этой таблице отображаются средние значения как внутри кластеров, так и в целом и стандартные отклонения. Переходим к пошаговым статистикам (табл.26-28).
Таблица 26
Введенные/исключенные переменныеa,b,c,d
Step |
Entered |
Wilks' Lambda | |||||||
Statistic |
df1 |
df2 |
df3 |
Exact F | |||||
Statistic |
df1 |
df2 |
Sig. | ||||||
1 |
x1 |
,187 |
1 |
1 |
36,000 |
156,463 |
1 |
36,000 |
,000 |
At each step, the variable that minimizes the overall Wilks' Lambda is entered. |
|||||||||
a. Maximum number of steps is 14. |
|||||||||
b. Maximum significance of F to enter is .05. |
|||||||||
c. Minimum significance of F to remove is .10. |
|||||||||
d. F level, tolerance, or VIN insufficient for further computation. |
Таблица 27
Переменные в анализе
Step |
Tolerance |
Sig. of F to Remove | |
1 |
x1 |
1,000 |
,000 |
Таблица 28
Переменные, не включенные в анализ.
Step |
Tolerance |
Min. Tolerance |
Sig. of F to Enter |
Wilks' Lambda | |
0 |
x3 |
1,000 |
1,000 |
,227 |
,960 |
x4 |
1,000 |
1,000 |
,235 |
,961 | |
x5 |
1,000 |
1,000 |
,143 |
,941 | |
x6 |
1,000 |
1,000 |
,004 |
,790 | |
x1 |
1,000 |
1,000 |
,000 |
,187 | |
x2 |
1,000 |
1,000 |
,001 |
,727 | |
y |
1,000 |
1,000 |
,119 |
,934 | |
1 |
x3 |
,943 |
,943 |
,447 |
,184 |
x4 |
,990 |
,990 |
,991 |
,187 | |
x5 |
,999 |
,999 |
,643 |
,186 | |
x6 |
,997 |
,997 |
,113 |
,174 | |
x2 |
,912 |
,912 |
,987 |
,187 | |
y |
,997 |
,997 |
,339 |
,182 |
Таким образом, значимыми для разделения по кластерам оказались лишь один результативный признак - X1 (территория). И действительно, при кластерном анализе именно этот признак являлся одним из основных, различающих объекты в кластерах. Переходим к каноническим дискриминантным функциям (таблицы 29-33).
Таблица 29
Собственные значения
Function |
Eigenvalue |
% of Variance |
Cumulative % |
Canonical Correlation |
1 |
4,346a |
100,0 |
100,0 |
,902 |
a. First 1 canonical discriminant functions were used in the analysis. |
Таблица 30
Лямбда Уилкса
Test of Function(s) |
Wilks' Lambda |
Chi-square |
df |
Sig. |
1 |
,187 |
59,512 |
1 |
,000 |
Таблица 31
Нормированные коэффициенты канонической дискриминантной функции
Function | |
1 | |
x1 |
1,000 |
В таблице 31 показан нормированный коэффициент канонической дискриминантной функции, по которому можно определить относительный вклада каждой переменной в значение дискриминантной функции с учетом влияния остальных переменных. Таким образом, в функции преобладает влияние показателя Х1.
Таблица32
Структурная матрица
Function | |
1 | |
x1 |
1,000 |
x2a |
,297 |
x3a |
,238 |
x4a |
,099 |
x6a |
,057 |
ya |
,054 |
x5a |
,032 |
a. This variable not used in the analysis. |
В таблице 32 показаны объединенные внутригрупповые корреляции между дискриминантными переменными и нормированными каноническими дискриминантными функциями.
Таблица 33
Коэффициенты канонической дискриминантрой функции
Function | |
1 | |
x1 |
,005 |
(Constant) |
-2,243 |
Unstandardized coefficients |
Из таблицы 33 получаем функцию, которая выглядит следующим образом:
d = -2,243 + 0,005X1
После этого проводим анализ
методом принудительного
Таблица 32
Лямбда Уилкса
Test of Function(s) |
Wilks' Lambda |
Chi-square |
df |
Sig. |
1 |
,150 |
61,554 |
7 |
,000 |
Таблица 33
Коэффициенты канонической дискриминантрой функции
Function | |
1 | |
x3 |
,501 |
x4 |
,046 |
x5 |
-,003 |
x6 |
,003 |
x1 |
-,005 |
x2 |
,018 |
y |
,032 |
(Constant) |
-3,764 |
Unstandardized coefficients |
По таблице 33 делаем вывод, что функция имеет следующий вид:
d = -3,764 - 0,005Х1 + 0,018Х2 + 0,501Х3 + 0,046Х4 – 0,003Х5 + 0,003Х6
Таблица 34 показывает некоторые изменения в структурной матрице по сравнению с пошаговым методом.
Таблица 34
Структурная матрица
Function | |
1 | |
x1 |
-,877 |
x2 |
-,258 |
x6 |
,217 |
y |
,112 |
x5 |
-,105 |
x3 |
-,086 |
x4 |
-,085 |
Таблица 35
Нормированные коэффициенты канонической дискриминантной функции
Function | |
1 | |
x3 |
,382 |
x4 |
,177 |
x5 |
-,062 |
x6 |
,518 |
x1 |
-1,070 |
x2 |
,148 |
y |
,248 |
Как и в пошаговом методе в функции преобладает влияние показателя Х1, что видно в таблице 35.
Информация о работе Статистический анализ средней продолжительности жизни в странах Африки