Статистический анализ средней продолжительности жизни в странах Африки

Автор работы: Пользователь скрыл имя, 06 Января 2013 в 22:03, курсовая работа

Краткое описание

Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.

Содержание

Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54

Вложенные файлы: 1 файл

курсийн ажил МСМ1.docx

— 453.45 Кб (Скачать файл)

В полученной матрице мультиколлинеарности не обнаружено.

Для значимых парных коэффициентов  корреляции можно построить с   заданной   надёжностью  γ   интервальную   оценку   ρmin ≤ ρ ≤ ρmax       с помощью Z-преобразования Фишера:

 

 

 Алгоритм построения  интервальной оценки для генерального  коэффициента корреляции следующий.

1). Zr По найденному выборочному коэффициенту корреляции  r                с     помощью Z-преобразования Фишера находят соответствующее значение Zr ,   являющееся гиперболическим арктангенсом r :

 

2). ΔZ Найдём значение tγ, соответствующее заданной надёжности γ=0,95.                - значение функции Лапласа.

=0,95  tγ =1,96

Находим   

3). Теперь можно найти Zmin и Zmax:

Zmin = Zr  – ΔZ=-0,459-0,295=-0,755; Zmax= Zr  + ΔZ=-0,459+0,295=-0,164

4). Наконец, использовав обратное преобразование Фишера, находят нижнюю и верхнюю границы для генерального коэффициента корреляции   ρmin и ρmax   , соответствующие Zmin и Zmax.

Соответствующие значения ρmin и ρmax являются гиперболическими тангенсами Zmin и Zmax : .    rmin = -0,459; rmax = -0,162.

Построим с надёжностью  γ=0,95 и с учётом найденного доверительные интервалы для всех значимых парных коэффициентов корреляции, полученных нами.  Расчёты представим в виде таблицы 4.

Таблица 4.

Расчёт доверительных  интервалов для парных коэффициентов  корреляции исследуемых показателей  с надёжностью γ=0,95

 

r

Zr

Zmin

Zmax

ρmin

ρmax

Y X3

-0,429

-0,459

-0,755

-0,164

-0,459

-0,162

Y X4

-0,753

-0,979

-1,275

-0,684

-0,855

-0,594

Y Х5

-0,562

-0,636

-0,931

-0,34

-0,731

-0,328

Y Х6

0,3014

0,3111

0,0156

0,6065

0,0156

0,5417

Х1 Х2

0,4816

0,525

0,2296

0,8205

0,2256

0,6754

Х1 Х6

0,425

0,4537

0,1583

0,7492

0,157

0,6347

Х2 Х6

0,7316

0,9322

0,6367

1,2277

0,5627

0,8419

Х3 Х4

0,4543

0,49

0,1946

0,7855

0,1921

0,6559

Х3 Х5

0,5417

0,6066

0,3111

0,9021

0,3015

0,7173

Х3 Х6

-0,311

-0,321

-0,617

-0,026

-0,549

-0,026

Х4 Х5

0,7091

0,8853

0,5898

1,1808

0,5298

0,8277

Х4 Х6

-0,42

-0,447

-0,743

-0,152

-0,631

-0,151

Х5 Х6

-0,354

-0,37

-0,666

-0,075

-0,582

-0,075


По полученным данным можно  сделать следующие выводы:

Между исследуемыми показателями выявлены значимые корреляционные зависимости.

1). Значимые корреляционные  обратные взаимосвязи обнаружены  между изучаемым признаком Y – ожидаемая продолжительность жизни населения при рождении и факторными признаками: X3 – коэффициент рождаемости на 1000 жителей, X4 – коэффициент смертности на 1000 жителей и X5 – коэффициент младенческой смертности на 1000 рождений. Значимая корреляционная прямая взаимосвязь обнаружена между результативным признаком Y – ожидаемая продолжительность жизни населения при рождении и факторным признаком X6 – ВВП по ППС.

2). Существуют прямые взаимосвязи  между факторными признаками Х1 (территория) и Х2 (численность населения), Х1 (территория) и Х6 (ВНП на 1 жителя), Х2 (численность населения) и Х6 (ВНП на 1 жителя), Х3 (коэффициент суммарной рождаемости число детей на 1 женщину) и Х4 (коэффициент смертности на 1000 жителей) и Х5 (коэффициент младенческой смертности на 1000 рождений), Х4 (коэффициент смертности на 1000 жителей) и Х5 (коэффициент младенческой смертности на 1000 рождений).

3).  Существует обратная взаимосвязь между факторными признаками Х3 (коэффициент суммарной рождаемости число детей на 1 женщину) и Х6 (ВНП на 1 жителя), Х4 (коэффициент смертности на 1000 жителей) и Х6 (ВНП на 1 жителя), Х5 (коэффициент младенческой смертности на 1000 рождений) и Х6 (ВНП на 1 жителя).

4). Наиболее сильная  прямая взаимосвязь выявлена  между факторными признаками Х2 (численность населения) и Х6 (ВНП на 1 жителя).

Построим поля корреляции.

Рисунок 4. Поля корреляции между ожидаемой продолжительности жизни населения и коэффициентом смертности на 1000 жителей.

На рисунке 4 представлена сильная обратная взаимосвязь между результативным признаком Y – ожидаемая продолжительность жизни населения при рождении и факторным признаком X4 – коэффициент смертности на 1000 жителей.

            

Рисунок 5. Поля корреляции между коэффициентом смертности на 1000 жителей и коэффициентом младенческой смертности на 1000 рождений.

На рисунке 5 представлена сильная прямая связь между показателями Х4 (коэффициент смертности на 1000 жителей) и Х5 (коэффициент младенческой смертности на 1000 рождений).

           

Рисунок 6. Поля корреляции между ожидаемой продолжительности жизни населения и территорией стран.

На рисунке 6 представлена слабая, близкая к нулю взаимосвязь между показателями Y(ожидаемая продолжительность жизни населения при рождении) и Х1(территория стран).

4.2. Частные коэффициенты корреляции. Сравнение частных и парных коэффициентов корреляции

Частные коэффициенты корреляции характеризуют взаимосвязь между  двумя выбранными переменными при  исключении влияния остальных показателей (т.е. характеризуют «чистую» связь  только между этими признаками) и  важны для понимания взаимодействия всего комплекса показателей, т.к. позволяют определить механизмы  усиления-ослабления влияния переменных друг на друга.

Каждый из частных коэффициентов  корреляции был отдельно рассчитан  при помощи пакета анализа данных SPSS и ниже представлена сводная таблица частных коэффициентов корреляции с выделенными значимыми коэффициентами корреляции (при α=0,05).

Таблица 5.

Матрица частных  коэффициентов корреляции

 

Y

X1

X2

X3

X4

X5

X6

Y

1

0,064

-0,015

-0,14

-0,595

-0,012

-0,039

Х1

0,064

1

0,237

0,077

0,019

0,013

0,132

X2

-0,015

0,237

1

0,266

0,024

0,032

0,704

X3

-0,14

0,077

0,266

1

-0,027

0,309

-0,312

X4

-0,595

0,019

0,024

-0,027

1

0,465

-0,167

X5

-0,012

0,013

0,032

0,309

0,465

1

-0,055

X6

-0,039

0,132

0,704

-0,312

-0,167

-0,055

1


Для значимых частных коэффициентов корреляции можно построить с   заданной   надёжностью γ   интервальную   оценку   ρmin ≤ ρ ≤ ρmax       с помощью Z-преобразования Фишера:

                                          

                                                     

 Алгоритм построения  интервальной оценки для частного  генерального коэффициента корреляции  такой же, как и для парного;  единственное отличие заключается  в расчёте  ΔZ :

                                         

где l – порядок частного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l=5),  а n – количество наблюдений. 

Построим с надёжностью  γ=0,95 и с учётом найденного доверительные интервалы для всех значимых частных коэффициентов корреляции, полученных нами.  Расчёты представим в виде таблицы 6.

Таблица 6.

Расчёт доверительных  интервалов для частных коэффициентов  корреляции исследуемых показателей  с надёжностью γ=0,95

 

r

Zr

Zmin

Zmax

ρmin

ρmax

Y X4

-0,595

-0,685

-0,999

-0,685

-0,761

-0,595

Х6 Х2

0,704

0,8752

0,5613

0,8752

0,509

0,704

Х5 Х3

0,309

0,3194

0,0056

0,3194

0,0056

0,309

Х3 Х6

-0,312

-0,323

-0,637

-0,323

-0,563

-0,312

Х4 Х5

0,465

0,5037

0,1898

0,5037

0,1876

0,465


Сравнение парных и частных  коэффициентов играет важную роль в  выявлении механизмов воздействия  переменных друг на друга.

Если оказывается, что парный коэффициент корреляции между двумя переменными по модулю больше соответствующего частного, то  остальные переменные усиливают связь между этими двумя признаками. Соответственно, если парный коэффициент корреляции между двумя переменными по абсолютной величине меньше частного, то  остальные признаки ослабляют связь между рассматриваемыми двумя.

Таблица 7

Таблица сравнения  выборочных оценок парных и частных  коэффициентов корреляции пар исследуемых  показателей с выделением значимых коэффициентов (при α=0,05)

Между переменными

Коэффициент корреляции

парный

частный

Y X1

0,111

0,064

Y X2

0,104

-0,015

Y X3

-0,429

-0,14

Y X4

-0,753

-0,595

Y X5

-0,562

-0,012

Y X6

0,301

-0,039

X1 X2

0,482

0,237

X1 X3

0,013

0,077

X1 X4

-0,128

0,019

X1 X5

-0,070

0,013

X1 X6

0,425

0,132

X2 X3

0,012

0,266

X2 X4

-0,183

0,024

X2 X5

-0,108

0,032

X2 X6

0,732

0,704

X3 X4

0,454

-0,027

X3 X5

0,542

0,309

X3 X6

-0,311

-0,312

X4 X5

0,709

0,465

X4 X6

-0,420

-0,167

X5 X6

-0,354

-0,055


Не все значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции подтвердились при вычислении частных коэффициентов корреляции. При этом выявлены следующие механизмы воздействия переменных друг на друга:

Информация о работе Статистический анализ средней продолжительности жизни в странах Африки