Елементи теорії кореляції

Автор работы: Пользователь скрыл имя, 22 Апреля 2014 в 22:06, доклад

Краткое описание

У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.

Вложенные файлы: 1 файл

Кореляція.docx

— 143.00 Кб (Скачать файл)

Вступ

У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.

 

2 Поняття про кореляцію і регресію

Оцінка залежності між випадковими величинами та поява можливості прогнозувати при цьому значення однієї випадкової величини за значеннями іншої випадкової величини є важливою проблемою статистичного аналізу.

2.1 Функціональна, статистична і кореляційна залежності

Дві випадкові величини можуть бути незалежними або пов'язаними між собою визначеною функціональною залежністю, або залежністю особливого типу, що називається статистичною (стохастичною).

Статистичною називають залежність, при якій зміна однієї з випадкових величин спричиняє зміну розподілу іншої випадкової величини. Статистична залежність виявляється зокрема в тому, що при зміні однієї з величин змінюється середнє значення іншої; при цьому статистичну залежність називають кореляційною.

Прикладом такої кореляційної залежності є зв'язок між внесеними в землю добривами і отриманим врожаєм зерна. Відомо, що твердого функціонального зв'язку між цими величинами немає у зв'язку з впливом безлічі випадкових факторів (опади, температура повітря й ін.). Однак досвід свідчить, що зміна кількості внесених добрив змінює середню врожайність.

2.2 Умовне математичне сподівання, коефіцієнт кореляції і регресія двовимірної випадкової величини в теорії ймовірностей

У теорії ймовірностей при описі системи двох випадкових величин   і   було введено поняття умовного математичного сподівання (регресії) для дискретних і для неперервних випадкових величин, відповідно

 

де   – визначене можливе значення випадкової величини  ;   (  ) – можливі значення величини  ;   – відповідні умовні ймовірності;   – умовна щільність ймовірності випадкової величини   при  ;   – функція регресії   на 

 (8)

– рівняння регресії   на  .

Аналогічно визначаються умовне математичне сподівання випадкової величини   і функція, а також рівняння регресії   на  :

 (9)

Функції   і   (рівняння регресії), що уявляють інтерес, у загальному випадку невідомі, тому їх шукають у наближеному вигляді, причому звичайно обмежуються лінійним наближенням:

 (10)

де   і   – параметри, що підлягають визначенню. Найчастіше для цього вживають метод найменших квадратів.

Функцію   називають "найкращим наближенням"   у сенсі методу найменших квадратів, якщо математичне сподівання

 (11)

приймає найменше можливе значення. При цьому функцію   називають середньоквадратичною регресією   на  .

У теорії ймовірностей доведено, що лінійна середня квадратична регресія   на   має вигляд

де

,  ,

,  ,

 – коефіцієнт кореляції величин   і  ,

 – кореляційний момент цих величин.

Можна показати, що кореляційний момент   характеризує зв'язок між величинами   і  , зокрема, якщо вони незалежні, то

Коефіцієнт

називають коефіцієнтом регресії   на  , а пряму

 

 (12)

називають прямою середньоквадратичної регресії   на  .

При підстановці знайдених значень   і   у формулу (11) отримуємо мінімальне значення функції  , що дорівнює

Цю величину називають залишковою дисперсією випадкової величини   щодо випадкової величини  . Вона характеризує похибку, що виникає під час заміни   лінійною функцією (10). При  залишкова дисперсія дорівнює нулю, тобто в цих випадках лінійна функція (10) точно подає випадкову величину  . Це означає, що при цьому   та   пов'язані лінійною функціональною залежністю.

Аналогічний вигляд має і пряма середньоквадратичної регресії   на 

 (13)

Очевидно, що обидві прямі регресії (12) і (13) проходять через спільну точку  , яка називається центром спільного розподілу величин   і  . Якщо коефіцієнт кореляції   дорівнює нулю, то пряма регресії   на   (12) є паралельною осі  , а пряма регресії   на   (13) – паралельна осі  , тобто вони є взаємно ортогональні. Крім того, при   обидві прямі регресії співпадають.

Таким чином, значення кута між прямими регресії (12) і (13) характеризує тісноту зв’язку між випадковими величинами: чим менше кут, тим більш тісною є зв’язок.

2.3 Умовне середнє і вибіркова регресія

У математичній статистиці вводять вибіркові оцінки умовного математичного сподівання і регресії. У якості оцінки умовного математичного сподівання   беруть умовне середнє  , яке знаходять за вибірковими даними спостережень.

Умовним середнім   називається середнє арифметичне значень випадкової величини  , що спостерігаються за умови, яка випадкова величина   при цьому має значення  . Аналогічно визначається і умовне середнє  , однак надалі для стислості викладення обмежимося в основному розглядом тільки   і пов'язаними з ним питаннями.

Також як і умовне математичне сподівання  , його вибіркова оцінка є функцією від змінної  , що позначимо через   і будемо називати вибірковою регресією   на  , а її графік – вибірковою лінією регресії   на  . Крім того, за аналогією з рівняннями (8) і (9) вводяться вибіркові рівняння регресії   на   і   на  , відповідно

 (14)

 (15)

2.4 Визначення параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за незгрупованих даних

Нехай під час дослідження кількісних ознак (  ,  ) у результаті   незалежних випробувань отримано   пар чисел:  ,  ,..., . Будемо шукати функцію   в лінійному наближенні (все аналогічно проводиться і для функції   у випадку регресії   на  ). Крім того, у припущенні незгрупованих даних спостережень (різні значення   ознаки   і відповідні їм значення  ознаки   спостерігалися по одному разу)   і   можна замінити на   і  . Під час цього рівняння прямої лінії регресії   на   можна подати у вигляді

 (16)

Кутовий коефіцієнт   прямої (16) називається вибірковим коефіцієнтом регресії   на   і позначається  . Він є оцінкою коефіцієнта регресії   в рівнянні (10). Тепер рівняння (16) можна переписати

 (17)

Підберемо параметри   і   так, щоб сума квадратів відхилень прямої (17) від точок  ,  ,..., , побудованих за даними спостережень, була б мінімальною

 (18)

де

 – ордината, що спостерігається, і є відповідною до  ,

 – ордината точки, що лежить на прямій (17) і має абсцису  ,

.

Підставивши значення   з рівняння (17) у формулу (18), одержимо

 (19)

Дорівнявши нулю частинні похідні   і   функції (19) одержимо систему двох лінійних алгебраїчних рівнянь щодо параметрів   і   для знаходження точки її мінімуму

 (20)

де

 ,  ,  , 

звідкіля остаточно знаходимо

Аналогічно визначається вибіркове рівняння прямої лінії регресії   на  .

 

2.5 Знаходження параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за згрупованими даними

При великій кількості спостережень одне й те ж саме значення   може зустрітися   раз, значення   –   раз, одна й та ж пара чисел   може спостерігатися   раз. Тому дані спостережень групують, тобто підраховують відповідні частоти  ,  ,  . Усі згруповані дані записують у вигляді таблиці, що називають кореляційною.

Приклад такої таблиці приведено нижче (табл. 3).

Таблиця 3

10

20

30

40

0,4

5

7

14

26

0,6

2

6

4

12

0,8

3

19

22

8

21

13

18


У першому рядку цієї таблиці дано перелік значень (10; 20; 30; 40) ознаки  , що спостерігаються, а в першому стовпці – спостерігаємі значення (0,4; 0,6; 0,8) ознаки  . На перетинанні рядків і стовпчиків знаходяться частоти   пар значень ознак. Наприклад, частота 5 вказує, що пара чисел (10; 0,4) спостерігається 5 разів. Риска означає, що відповідна пара чисел, наприклад (20; 0,4), не спостерігається.

В останньому стовпчикові записані суми частот рядків. В останньому рядку записані суми частот стовпчиків. У нижньому правому куті таблиці, поміщена сума всіх частот (загальна кількість всіх спостережень  ).

У випадку згрупованих даних з урахуванням очевидних співвідношень

 

 ,  ,  , 

систему рівнянь (20) можна переписати у виправленому вигляді

З рішення цієї системи (  ,  ) знаходимо рівняння прямої регресії

Шляхом нескладних перетворень його можна переписати у вигляді

де   ,  – вибіркові середні квадратичні відхилення величин   і 

 (21)

– вибірковий коефіцієнт кореляції.

Вибірковий коефіцієнт кореляції. Як відомо з теорії ймовірностей, якщо величини   і   незалежні, коефіцієнт їхньої кореляції  , якщо   – величини   і   пов'язані лінійною функціональною залежністю. Тобто коефіцієнт кореляції   характеризує ступінь лінійного зв'язку між   і  .

Вибірковий коефіцієнт кореляції   є оцінкою коефіцієнта кореляції   генеральної сукупності, тому він також характеризує міру лінійного зв'язку між величинами   і  .

 

3 Поняття про криволінійну кореляцію

Раніше ми обмежилися лінійним наближенням функцій регресії, рівнянь регресії, відповідно і кореляційного зв'язку. Однак теорію можна узагальнити і на наступні наближення.

Нехай дані спостережень над кількісними ознаками   і   зведено до кореляційної таблиці. Тим самим значення  , що спостерігаються, розбито на групи; кожна група містить ті значення  , що відповідають визначеному значенню  . Для приклада розглянемо кореляційну таблицю 4.

Таблиця 4

10

20

30

15

4

28

6

38

25

6

6

12

10

28

12

21

15

20

 

До першої групи відносяться ті 10 значень   (4 рази спостерігалося значення   і 6 разів  ), що відповідають  . До другої групи – ті 28 значень   (28 разів спостерігалося   і 0 разів  ), що відповідають  . До третьої групи відносяться 12 значень   (6 разів спостерігалося   і 6 разів  ).

Умовні середні тепер можна назвати груповими середніми: групова середня першої групи

групова середня другої групи

для третьої групи

Оскільки всі значення ознаки   розбито на групи, можна уявити загальну дисперсію ознаки у вигляді суми внутрішньо групової і міжгрупової дисперсій

Можна показати, що, якщо між величинами   і   є функціональна залежність, то

якщо ж вони пов'язані кореляційною залежністю, то

Вибіркове кореляційне відношення. Для оцінки ступені тісноти лінійного кореляційного зв'язку між ознаками у вибірці застосовується вибірковий коефіцієнт кореляції (21). У разі нелінійного кореляційного зв'язку з тою ж метою вводяться нові узагальнені характеристики:

 – вибіркове кореляційне відношення   до  ;

Информация о работе Елементи теорії кореляції