Автор работы: Пользователь скрыл имя, 22 Апреля 2014 в 22:06, доклад
У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.
Вступ
У більшості розділів математичної статистики передбачається, що кожний із усіх численних компонентів (факторів), які визначають характер поведінки випадкової величини, вносить у формування її значення дуже малий неконтрольований внесок, більш-менш однаковий за потужністю. На відміну від них у дисперсійному аналізі та у теорії кореляції досліджуються випадки наявності серед цих факторів величин, що є домінуючими у тій чи у іншій ступені аж впритул до необхідності їх інтерпретації як також випадкових величин і з'ясування їхнього взаємозв'язку з основною випадковою величиною.
2 Поняття про кореляцію і регресію
Оцінка залежності між випадковими величинами та поява можливості прогнозувати при цьому значення однієї випадкової величини за значеннями іншої випадкової величини є важливою проблемою статистичного аналізу.
2.1 Функціональна, статистична і кореляційна залежності
Дві випадкові величини можуть бути незалежними або пов'язаними між собою визначеною функціональною залежністю, або залежністю особливого типу, що називається статистичною (стохастичною).
Статистичною називають залежність, при якій зміна однієї з випадкових величин спричиняє зміну розподілу іншої випадкової величини. Статистична залежність виявляється зокрема в тому, що при зміні однієї з величин змінюється середнє значення іншої; при цьому статистичну залежність називають кореляційною.
Прикладом такої кореляційної залежності є зв'язок між внесеними в землю добривами і отриманим врожаєм зерна. Відомо, що твердого функціонального зв'язку між цими величинами немає у зв'язку з впливом безлічі випадкових факторів (опади, температура повітря й ін.). Однак досвід свідчить, що зміна кількості внесених добрив змінює середню врожайність.
2.2 Умовне математичне сподівання, коефіцієнт кореляції і регресія двовимірної випадкової величини в теорії ймовірностей
У теорії ймовірностей при описі системи двох випадкових величин і було введено поняття умовного математичного сподівання (регресії) для дискретних і для неперервних випадкових величин, відповідно
де – визначене можливе значення випадкової величини ; ( ) – можливі значення величини ; – відповідні умовні ймовірності; – умовна щільність ймовірності випадкової величини при ; – функція регресії на
(8)
– рівняння регресії на .
Аналогічно визначаються умовне математичне сподівання випадкової величини і функція, а також рівняння регресії на :
(9)
Функції і (рівняння регресії), що уявляють інтерес, у загальному випадку невідомі, тому їх шукають у наближеному вигляді, причому звичайно обмежуються лінійним наближенням:
(10)
де і – параметри, що підлягають визначенню. Найчастіше для цього вживають метод найменших квадратів.
Функцію називають "найкращим наближенням" у сенсі методу найменших квадратів, якщо математичне сподівання
(11)
приймає найменше можливе значення. При цьому функцію називають середньоквадратичною регресією на .
У теорії ймовірностей доведено, що лінійна середня квадратична регресія на має вигляд
де
, ,
, ,
– коефіцієнт кореляції величин і ,
– кореляційний момент цих величин.
Можна показати, що кореляційний момент характеризує зв'язок між величинами і , зокрема, якщо вони незалежні, то
Коефіцієнт
називають коефіцієнтом регресії на , а пряму
(12)
називають прямою середньоквадратичної регресії на .
При підстановці знайдених значень і у формулу (11) отримуємо мінімальне значення функції , що дорівнює
Цю величину називають залишковою дисперсією випадкової величини щодо випадкової величини . Вона характеризує похибку, що виникає під час заміни лінійною функцією (10). При залишкова дисперсія дорівнює нулю, тобто в цих випадках лінійна функція (10) точно подає випадкову величину . Це означає, що при цьому та пов'язані лінійною функціональною залежністю.
Аналогічний вигляд має і пряма середньоквадратичної регресії на
(13)
Очевидно, що обидві прямі регресії (12) і (13) проходять через спільну точку , яка називається центром спільного розподілу величин і . Якщо коефіцієнт кореляції дорівнює нулю, то пряма регресії на (12) є паралельною осі , а пряма регресії на (13) – паралельна осі , тобто вони є взаємно ортогональні. Крім того, при обидві прямі регресії співпадають.
Таким чином, значення кута між прямими регресії (12) і (13) характеризує тісноту зв’язку між випадковими величинами: чим менше кут, тим більш тісною є зв’язок.
2.3 Умовне середнє і вибіркова регресія
У математичній статистиці вводять вибіркові оцінки умовного математичного сподівання і регресії. У якості оцінки умовного математичного сподівання беруть умовне середнє , яке знаходять за вибірковими даними спостережень.
Умовним середнім називається середнє арифметичне значень випадкової величини , що спостерігаються за умови, яка випадкова величина при цьому має значення . Аналогічно визначається і умовне середнє , однак надалі для стислості викладення обмежимося в основному розглядом тільки і пов'язаними з ним питаннями.
Також як і умовне математичне сподівання , його вибіркова оцінка є функцією від змінної , що позначимо через і будемо називати вибірковою регресією на , а її графік – вибірковою лінією регресії на . Крім того, за аналогією з рівняннями (8) і (9) вводяться вибіркові рівняння регресії на і на , відповідно
(14)
(15)
2.4 Визначення параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за незгрупованих даних
Нехай під час дослідження кількісних ознак ( , ) у результаті незалежних випробувань отримано пар чисел: , ,..., . Будемо шукати функцію в лінійному наближенні (все аналогічно проводиться і для функції у випадку регресії на ). Крім того, у припущенні незгрупованих даних спостережень (різні значення ознаки і відповідні їм значення ознаки спостерігалися по одному разу) і можна замінити на і . Під час цього рівняння прямої лінії регресії на можна подати у вигляді
(16)
Кутовий коефіцієнт прямої (16) називається вибірковим коефіцієнтом регресії на і позначається . Він є оцінкою коефіцієнта регресії в рівнянні (10). Тепер рівняння (16) можна переписати
(17)
Підберемо параметри і так, щоб сума квадратів відхилень прямої (17) від точок , ,..., , побудованих за даними спостережень, була б мінімальною
(18)
де
– ордината, що спостерігається, і є відповідною до ,
– ордината точки, що лежить на прямій (17) і має абсцису ,
.
Підставивши значення з рівняння (17) у формулу (18), одержимо
(19)
Дорівнявши нулю частинні похідні і функції (19) одержимо систему двох лінійних алгебраїчних рівнянь щодо параметрів і для знаходження точки її мінімуму
(20)
де
, , ,
звідкіля остаточно знаходимо
Аналогічно визначається вибіркове рівняння прямої лінії регресії на .
2.5 Знаходження параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за згрупованими даними
При великій кількості спостережень одне й те ж саме значення може зустрітися раз, значення – раз, одна й та ж пара чисел може спостерігатися раз. Тому дані спостережень групують, тобто підраховують відповідні частоти , , . Усі згруповані дані записують у вигляді таблиці, що називають кореляційною.
Приклад такої таблиці приведено нижче (табл. 3).
Таблиця 3
|
| ||||
10 |
20 |
30 |
40 |
| |
0,4 |
5 |
– |
7 |
14 |
26 |
0,6 |
– |
2 |
6 |
4 |
12 |
0,8 |
3 |
19 |
– |
– |
22 |
|
8 |
21 |
13 |
18 |
|
У першому рядку цієї таблиці дано перелік значень (10; 20; 30; 40) ознаки , що спостерігаються, а в першому стовпці – спостерігаємі значення (0,4; 0,6; 0,8) ознаки . На перетинанні рядків і стовпчиків знаходяться частоти пар значень ознак. Наприклад, частота 5 вказує, що пара чисел (10; 0,4) спостерігається 5 разів. Риска означає, що відповідна пара чисел, наприклад (20; 0,4), не спостерігається.
В останньому стовпчикові записані суми частот рядків. В останньому рядку записані суми частот стовпчиків. У нижньому правому куті таблиці, поміщена сума всіх частот (загальна кількість всіх спостережень ).
У випадку згрупованих даних з урахуванням очевидних співвідношень
, , ,
систему рівнянь (20) можна переписати у виправленому вигляді
З рішення цієї системи ( , ) знаходимо рівняння прямої регресії
Шляхом нескладних перетворень його можна переписати у вигляді
де , – вибіркові середні квадратичні відхилення величин і
(21)
– вибірковий коефіцієнт кореляції.
Вибірковий коефіцієнт кореляції. Як відомо з теорії ймовірностей, якщо величини і незалежні, коефіцієнт їхньої кореляції , якщо – величини і пов'язані лінійною функціональною залежністю. Тобто коефіцієнт кореляції характеризує ступінь лінійного зв'язку між і .
Вибірковий коефіцієнт кореляції є оцінкою коефіцієнта кореляції генеральної сукупності, тому він також характеризує міру лінійного зв'язку між величинами і .
3 Поняття про криволінійну кореляцію
Раніше ми обмежилися лінійним наближенням функцій регресії, рівнянь регресії, відповідно і кореляційного зв'язку. Однак теорію можна узагальнити і на наступні наближення.
Нехай дані спостережень над кількісними ознаками і зведено до кореляційної таблиці. Тим самим значення , що спостерігаються, розбито на групи; кожна група містить ті значення , що відповідають визначеному значенню . Для приклада розглянемо кореляційну таблицю 4.
Таблиця 4
|
| |||
10 |
20 |
30 |
| |
15 |
4 |
28 |
6 |
38 |
25 |
6 |
– |
6 |
12 |
|
10 |
28 |
12 |
|
|
21 |
15 |
20 |
До першої групи відносяться ті 10 значень (4 рази спостерігалося значення і 6 разів ), що відповідають . До другої групи – ті 28 значень (28 разів спостерігалося і 0 разів ), що відповідають . До третьої групи відносяться 12 значень (6 разів спостерігалося і 6 разів ).
Умовні середні тепер можна назвати груповими середніми: групова середня першої групи
групова середня другої групи
для третьої групи
Оскільки всі значення ознаки розбито на групи, можна уявити загальну дисперсію ознаки у вигляді суми внутрішньо групової і міжгрупової дисперсій
Можна показати, що, якщо між величинами і є функціональна залежність, то
якщо ж вони пов'язані кореляційною залежністю, то
Вибіркове кореляційне відношення. Для оцінки ступені тісноти лінійного кореляційного зв'язку між ознаками у вибірці застосовується вибірковий коефіцієнт кореляції (21). У разі нелінійного кореляційного зв'язку з тою ж метою вводяться нові узагальнені характеристики:
– вибіркове кореляційне відношення до ;