Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа
Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.
Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54
Таблица 36
Поточечные статистики
Case Number |
Actual Group |
Highest Group |
Second Highest Group |
Discriminant Scores | |||||||
Predicted Group |
P(D>d | G=g) |
P(G=g | D=d) |
Squared Mahalanobis Distance to Centroid |
Group |
P(G=g | D=d) |
Squared Mahalanobis Distance to Centroid |
Function 1 | ||||
p |
df | ||||||||||
Original |
1 |
1 |
1 |
,078 |
1 |
1,000 |
3,108 |
2 |
,000 |
42,998 |
-4,791 |
2 |
2 |
2 |
,911 |
1 |
1,000 |
,012 |
1 |
,000 |
21,932 |
1,655 | |
3 |
2 |
2 |
,390 |
1 |
1,000 |
,739 |
1 |
,000 |
31,967 |
2,626 | |
4 |
1 |
1 |
,242 |
1 |
1,000 |
1,370 |
2 |
,000 |
35,582 |
-4,199 | |
5 |
2 |
2 |
,123 |
1 |
,984 |
2,385 |
1 |
,016 |
10,563 |
,222 | |
6 |
1 |
1 |
,170 |
1 |
,993 |
1,886 |
2 |
,007 |
11,704 |
-1,655 | |
7 |
2 |
2 |
,439 |
1 |
1,000 |
,598 |
1 |
,000 |
16,169 |
,993 | |
8 |
2 |
2 |
,063 |
1 |
1,000 |
3,451 |
1 |
,000 |
44,250 |
3,624 | |
9 |
2 |
2 |
,432 |
1 |
1,000 |
,617 |
1 |
,000 |
31,138 |
2,552 | |
10 |
1 |
1 |
,206 |
1 |
1,000 |
1,598 |
2 |
,000 |
36,704 |
-4,292 | |
11 |
1 |
1 |
,185 |
1 |
1,000 |
1,756 |
2 |
,000 |
37,447 |
-4,353 | |
12 |
2 |
2 |
,819 |
1 |
1,000 |
,052 |
1 |
,000 |
25,236 |
1,995 | |
13 |
2 |
2 |
,484 |
1 |
1,000 |
,489 |
1 |
,000 |
16,770 |
1,067 | |
14 |
2 |
2 |
,713 |
1 |
1,000 |
,135 |
1 |
,000 |
26,651 |
2,134 | |
15 |
2 |
2 |
,645 |
1 |
1,000 |
,212 |
1 |
,000 |
27,614 |
2,227 | |
16 |
2 |
2 |
,582 |
1 |
1,000 |
,303 |
1 |
,000 |
18,012 |
1,216 | |
17 |
2 |
2 |
,802 |
1 |
1,000 |
,063 |
1 |
,000 |
20,643 |
1,515 | |
18 |
2 |
2 |
,987 |
1 |
1,000 |
,000 |
1 |
,000 |
23,149 |
1,783 | |
19 |
1 |
1 |
,285 |
1 |
1,000 |
1,143 |
2 |
,000 |
34,383 |
-4,097 | |
20 |
1 |
1 |
,952 |
1 |
1,000 |
,004 |
2 |
,000 |
23,571 |
-3,089 | |
21 |
1 |
1 |
,467 |
1 |
1,000 |
,528 |
2 |
,000 |
30,482 |
-3,755 | |
22 |
2 |
2 |
,866 |
1 |
1,000 |
,028 |
1 |
,000 |
24,630 |
1,935 | |
23 |
2 |
2 |
,719 |
1 |
1,000 |
,129 |
1 |
,000 |
19,667 |
1,407 | |
24 |
2 |
2 |
,928 |
1 |
1,000 |
,008 |
1 |
,000 |
23,860 |
1,857 | |
25 |
2 |
2 |
,975 |
1 |
1,000 |
,001 |
1 |
,000 |
23,293 |
1,798 | |
26 |
2 |
2 |
,727 |
1 |
1,000 |
,122 |
1 |
,000 |
26,457 |
2,116 | |
27 |
2 |
2 |
,224 |
1 |
1,000 |
1,479 |
1 |
,000 |
36,127 |
2,982 | |
28 |
2 |
2 |
,772 |
1 |
1,000 |
,084 |
1 |
,000 |
20,290 |
1,476 | |
29 |
1 |
1 |
,871 |
1 |
1,000 |
,026 |
2 |
,000 |
24,565 |
-3,190 | |
30 |
1 |
1 |
,053 |
1 |
,902 |
3,742 |
2 |
,098 |
8,179 |
-1,094 | |
31 |
1 |
1 |
,019 |
1 |
,559 |
5,512 |
2 |
,441 |
5,986 |
-,680 | |
32 |
2 |
2 |
,641 |
1 |
1,000 |
,217 |
1 |
,000 |
18,735 |
1,300 | |
33 |
1 |
1 |
,890 |
1 |
1,000 |
,019 |
2 |
,000 |
21,685 |
-2,890 | |
34 |
2 |
2 |
,899 |
1 |
1,000 |
,016 |
1 |
,000 |
24,216 |
1,893 | |
35 |
2 |
2 |
,889 |
1 |
1,000 |
,020 |
1 |
,000 |
21,663 |
1,626 | |
36 |
1 |
1 |
,787 |
1 |
1,000 |
,073 |
2 |
,000 |
20,470 |
-2,758 | |
37 |
1 |
1 |
,140 |
1 |
,988 |
2,183 |
2 |
,012 |
11,001 |
-1,550 | |
38 |
2 |
2 |
,169 |
1 |
,993 |
1,890 |
1 |
,007 |
11,695 |
,392 |
Таблица 36 показывает, что при анализе поточечных статистик не обнаружилось неправильно классифицированных наблюдения. При пошаговом методе тоже подобная ситуация не наблюдалась.
Для написания курсовой выбрали тему «Статистический анализ средней ожидаемой продолжительности жизни населения в странах Африки». Для анализа были отобраны такие показатели как территория стран, численность населения, коэффициент суммарной рождаемости число детей на 1 женщину, коэффициент смертности на 1000 жителей, коэффициент младенческой смертности на 1000 рождений, ВНП на 1 жителя.
В первых трех пунктах данные были предварительно исследованы на аномальные наблюдения и выбросы и на нормальный закон распределения и были сделаны следующие выводы:
К числу выбросов были отнесены Сейшельские острова.
Закон о нормальном распределении действует только для двух показателей – Х4 (коэффициент смертности на 1000 жителей) и Х5 (коэффициент младенческой смертности на 1000 рождений).
Во четвертом разделе был проведен корреляционный анализ, по которому были сделаны следующие выводы:
Значимые корреляционные обратные взаимосвязи обнаружены между изучаемым признаком Y – ожидаемая продолжительность жизни населения при рождении и факторными признаками: X3 – коэффициент рождаемости на 1000 жителей, X4 – коэффициент смертности на 1000 жителей и X5 – коэффициент младенческой смертности на 1000 рождений. Значимая корреляционная прямая взаимосвязь обнаружена между результативным признаком Y – ожидаемой продолжительностью жизни населения при рождении и факторным признаком X6 – ВВП по ППС.
Не все значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции подтвердились при вычислении частных коэффициентов корреляции. Связь между изучаемым признаком Y - ожидаемой продолжительностью жизни населения при рождении и факторными признаками X3 (коэффициент рождаемости на 1000 жителей) и X6 (ВВП по ППС) не подтвердилась при вычислении частных коэффициентов корреляции.
Наиболее сильная связь, выявленная на этапе расчёта парных коэффициентов корреляции, между факторными признаками X2 (численность населения) и X6 (ВВП по ППС), подтвердилась при вычислении частных коэффициентов корреляции.
Взаимосвязи между факторными признаками X1 (территория) и X2(численность населения), X1 (территория) и X6(ВВП по ППС), X3 (коэффициент суммарной рождаемости число детей на 1 женщину)и X4(коэффициент смертности на 1000 жителей), X4 (коэффициент смертности на 1000 жителей) и X6(ВВП по ППС), X5 (коэффициент младенческой смертности на 1000 рождений) и X6(ВВП по ППС) не подтвердились при вычислении частных коэффициентов корреляции.
Воздействие других переменных усиливает взаимосвязь практически всех переменных. Так как их частные коэффиценты меньше чем парные.
Множественный коэффициент корреляции rY/{..} =0,7609 значим и имеет достаточно высокое значение, что говорит о том, показатель Y – ожидаемая продолжительность жизни населения при рождении имеет тесную связь с многомерным массивом факторных признаков X1 – территория стран, X2 – численность населения, X3 - коэффициент суммарной рождаемости число детей на 1 женщину, X4 – коэффициент смертности на 1000 жителей, X5– коэффициент младенческой смертности на 1000 рождений и X6 – ВНП на 1 жителя.
Множественный коэффициент детерминации показывает r2Y/{..} =0,5790, что 57,9% доли дисперсии Y – ожидаемая продолжительность жизни населения, обусловлены изменениями факторных признаков.
Факторные признаки тоже
имеют достаточно высокие значения
множественных коэффициентов
В пятом разделе был проведен компонентный анализ и сделаны следующие выводы:
Согласно критерию Кайзера отбирали только первую и вторую компоненты. Первый фактор объясняет 49,19% сумарной дисперсии, второй – 24,19%. Первая главная компонента наиболее тесно связана с показателями: x(3) — коэффициент суммарной рождаемости число детей на 1 женщину (r(x(1), z(1))=0,90); x(4) — коэффициент смертности на 1000 жителей (r(x(2), z(1))=0,776); x(5) — коэффициент младенческой смертности на 1000 рождений (r(x(3), z(1))=0,895); x(6) - ВНП на 1 жителя (r(x(3), z(1))= -0,823). Вторая главная компонента z(2) тесно связана с территорией (x(1)) и численностью населения (x(2)).
Уравнение регрессии на главных компонентах имеет вид:
Fнабл=15,573, R2 = 0,414
Множественный коэффициент детерминации свидетельствует, что 41,4% вариации y обусловлено влиянием первых главных компонент.
В шестом разделе был проведен кластерный анализ и сделаны следующие выводы:
Все наблюдении разделились на два кластера. Большенство наблюдений относятся к второму кластеру (24 страны), который отличается от первого кластера высокое значение результативного признака Y (ожидаемая продолжительность жизни населения при рождении), факторного признака X6 (ВНП на 1 жителя) и низкое значение факторных признаков X1 (территория), X2 (численность населения), X4 (коэффициент смертности), X5 (коэффициент младенческой смертности на 1000 рождений).
Уравнение регрессии первого кластера:
Ỹ=57,11+8,21X3 - 1,585X4 - 0,323X5
Fнабл=27,15,
Множественный коэффициент детерминации свидетельствует, что 89,1% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом суммарной рождаемости число детей на 1 женщину(X3), коэффициентом смертности на 1000 жителей (X4) и коэффициентом младенческой смертности на 1000 рождений (X5), а 10,9% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.
Уравнение регрессии второго кластера:
Ỹ=63,926 - 0,962X4
Fнабл=6,87,
Множественный коэффициент детерминации свидетельствует, что 23,8% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом смертности на 1000 жителей (X4) а 76,2% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель не адекватно отражает исследуемый процесс.
В седмом разделе при проведении дискриминантного анализа были получены следующие функции.
Пошаговым методом:
d = -2,243 + 0,005X1
Методом принудительного включения:
d = -3,764 - 0,005Х1 + 0,018Х2 + 0,501Х3 + 0,046Х4 – 0,003Х5 + 0,003Х6
При анализе поточечных статистик не обнаружилось неправильно классифицированных наблюдения. При пошаговом методе тоже подобная ситуация не наблюдалась.
Метод групповых средних (Ланс и Уильямс )
В 1967 году Ланс и Уильямс определяли среднее сходство между двумя кластерами I и J как среднее сходство между всеми парами объектов из I и J. Этот метод они назвали методом групповых средних.
Кластеры строятся последовательно: два кластера с минимальным средним коэффицентом сходства объединяются.
Как определить расстояние R(W, S) между кластерами W = U ∪ V и S, зная растояния их обьектов R(U, S), R(V, S), R(U, V)?
При определении расстояний между кластерами применяются следующие методы:
Ланс и Уильямс получили
общее уравнение для всех пяти
процессов кластеризации,
где αU, αV , β, γ числовые параметры.
Значения параметров, входящих
в общую формулу, соответствующие
различным процессам
1. Расстояние ближнего соседа: αU = αV = 1/2 ; β = 0; γ = − 1/2 .
2. Расстояние дальнего соседа: αU = αV = 1/2 ; β = 0; γ = 1/2 .
3. Групповое среднее расстояние: αU = U/W; αV = V/W; β = γ = 0
4. Расстояние между центрами: αU = U/W; αV = V/W; β = αU× αV ; γ = 0
5. Расстояние Уорда: αU = (S+U)/(S+W); αV = (S+V)/(S+W);
β = -S/(S+W) ; γ = 0
Алгоритм кластеризации Ланса-Уильямса
1: сначала все кластеры одноэлементные:
t := 1; Ct = {x1}, . . . , {xℓ};
R({xi}, {xj}) := ρ(xi , xj );
2: для всех t = 2, . . . , ℓ (t номер итерации):
3: найти в Ct−1 два ближайших кластера:
(U, V) := arg min R(U, V);
Rt := R(U, V);
4: слить их в один кластер:
W := U ∪ V;
Ct := Ct−1 ∪ {W} \ {U, V};
5: для всех S ∈ Ct
6: вычислить R(W, S) по формуле Ланса-Уильямса
Пример. Проведем класстеризацию, используя метод групповых средних и метрику квадрат евклидова расстояния и построим дендрограмму.
Предположим что, х1- культурные нужды и отдых, х2- питание и данные представлены в таблице 1.
Таблица 1
i |
1 |
2 |
3 |
4 |
5 |
x1 |
2 |
4 |
7 |
10 |
12 |
x2 |
4 |
2 |
6 |
5 |
8 |
Квадрат евклидова расстояния находим по формуле:
Растояния мужду объектами представлены в табл. 2.
Таблица 2
1 |
2 |
3 |
4 |
5 | |
1 |
0 |
8 |
29 |
65 |
116 |
2 |
8 |
0 |
25 |
45 |
100 |
3 |
29 |
25 |
0 |
10 |
29 |
4 |
65 |
45 |
10 |
0 |
13 |
5 |
116 |
100 |
29 |
13 |
0 |
Информация о работе Статистический анализ средней продолжительности жизни в странах Африки