Автор работы: Пользователь скрыл имя, 12 Июня 2012 в 12:23, задача
Анализируя точки поля корреляции, предполагаем, что связь между признаками x и y может быть линейной, т.е. y=a+b*x или не линейной вида y=a+b*lnx, y=a*bx . Основываясь на теории изучаемой взаимосвязи, предполагаем получить зависимость у от х вида y=a+b*x, т. к. затраты на производство (у) можно условно разделить на 2 вида: постоянные, не зависящие от объема производства (a), такие как арендная плата, содержание администрации и т.д.; и переменные, изменяющиеся пропорционально выпуску продукции (b*x) такие как расход материала, электроэнергии и т.д.
Таблица №3.
21
2.3.2. Оценим тесноту связи между признаками у и х с помощью индекса корреляции Rxy.
Предварительно рассчитаем ỹ, подставляя в уравнение регрессии, подставляя в уравнение регрессии
ỹх = -20,29+17,63*ln x фактические значения х, (y - ỹ) и (y - ỹ)2 .
Тогда:
Rxy = √1- (1/n∑(y - ỹ)2) /(y2 – (y)2 ) = 1- ((1/15*12,84735) / (498,0947-(21,68)2 ))= 0,970.
Значение индекса корреляции близко к 1, следовательно, между переменными х и у наблюдается очень тесная корреляционная связь вида
ỹ = a*xb .
2.2.3. Оценим качество построенной модели ỹ = a*xb .
Определим индекс детерминации R2ху = 0,9702 = 0,9409, т.е. данная модель объясняет 94,09% общей дисперсии у, а на долю необъясненной дисперсии приходится 5,01%. Следовательно, качество модели высокое.
Найдем величину средней ошибки аппроксимации А.
А = 1/n*∑Аi = 1/15*60,18 = 4,012%.
Т.е. в среднем расчетные значения отклоняются от фактических на 4,012%. Ошибка допустимая.
2.2.4. Определим средний коэффициент эластичности: Э = b =0,875%.
2.2.5. Оценим статистическую значимость полученного уравнения
ỹх = 2,59*х0,88
Fтабл = (α = 0,05, k1 = 1, k2 = 15-2=13)=4,67.
Fфакт = (R2ху /1- R2ху)*(n-2) =(0,9409/1-0,9409)*13 = 206,97.
Fфакт › Fтабл .
Следовательно, полученное уравнение с вероятностью 0,95 статистически значимо, надежно и может быть использовано для прогноза.
3. Выбор лучшего уравнения.
Составим таблицу полученных результатов исследования (табл. №4).
Таблица №4.
Уравнение | Rxy (rxy ) | R2ху (r2xy ) | A, % | Э, % |
ỹх = 2,64+1,69*х | 0,980 | 0,960 | 3,30 | 0,879 |
ỹх = -20,29+17,63* ln | 0,931 | 0,965 | 5,74 | 0,813 |
ỹх = 2,59*х0,88 | 0,970 | 0,940 | 4,01 | 0,875 |
Выводы:
Все три уравнения оказались статистически значимыми и надежными, имеют близкий к 1 коэффициент (индекс) корреляции, высокий (близкий к 1) коэффициент (индекс) детерминации и ошибку аппроксимации в допустимых пределах. При этом характеристики полулогарифмической модели указывают, что она несколько лучше линейной и степенной описывает связь между признаками х и у. Для обоснования возможности замены линейной модели на полулогарифмическую, оценим существенность различия индекса детерминации степенной модели R2ху и коэффициента детерминации линейной модели r2xy :
R2ху - r2xy = 0,965-0,960 = 0,005 (‹0,1).
Т.е. применение полулогарифмической функции увеличивает долю объясненной дисперсии на 0,5%, это не существенно. Поэтому нет необходимости усложнять форму уравнения регрессии, замена линейной регрессии не линейной не обоснованна.
В качестве уравнения регрессии выберем линейную модель ỹх = 2,64+1,69*х. 4. Для выбранной модели проверим предпосылку МНК о гомоскедастичности остатков, т.е. о том, что остатки регрессии имеют постоянную дисперсию. Используем метод Гольдфельдта-Квандта:
1) Упорядочим наблюдения по мере возрастания переменной х.
2) Исключим из рассмотрения 3 центральных наблюдения..
3) Рассмотрим первую группу наблюдений (малые значения фактора х) и определим ∑6i=1 (y - ỹ)2 этой группы.
Построим расчетную таблицу (табл. №5).
Таблица №5.
№ | x | y | yx | x2 | y2 | ỹ | y- ỹ | (y- ỹ)2 |
1 | 5,9 | 13,1 | 77,29 | 34,81 | 171,61 | 13,18 | -0,08 | 0,0064 |
2 | 7,6 | 15,2 | 115,52 | 57,76 | 231,04 | 15,9 | -0,7 | 0,49 |
3 | 7,8 | 16,8 | 131,04 | 60,84 | 282,24 | 16,22 | 0,58 | 0,3364 |
4 | 8,4 | 17,3 | 145,32 | 70,56 | 299,29 | 17,18 | 0,12 | 0,0144 |
5 | 9,4 | 19,8 | 186,12 | 88,36 | 392,04 | 18,78 | 1,02 | 1,0404 |
6 | 9,7 | 18,3 | 177,51 | 94,09 | 334,89 | 19,26 | -0,96 | 0,9216 |
сумма | 48,8 | 100,5 | 832,8 | 406,42 | 1711,11 | 100,52 | -0,02 | 2,8092 |
среднее | 8,133333 | 16,75 | 138,8 | 67,73667 | 285,185 | 16,7533333 | -0,00333 |
|
Определим параметры b и a уравнения регрессии y = a+b*x первой группы:
b = (ху - х * у) / (х2 – (х )2 = (138,8-8,13*16,75) / (67,74 – (8,13)2 = 1,60.
а = у – b * х = 16,75 – 1,6 * 8,13 = 3,74.
Уравнение регрессии первой группы ỹ = 3,74+1,60*х. Подставляя в это уравнение определим фактические значения х, ỹ, (y- ỹ) и (y- ỹ)2 . Тогда
∑6i=1 (y- ỹ)2 = 2,8092.
Рассмотрим вторую группу наблюдений ( с большими значениями факторах) и определим ∑15i=10 (y- ỹ)2 .
Строим расчетную таблицу (табл. №6).
Таблица №6.
№ | x | y | yx | x2 | y2 | ỹ | y- ỹ | (y- ỹ)2 |
1 | 12,6 | 23,4 | 294,84 | 158,76 | 547,56 | 23,79 | -0,39 | 0,1521 |
2 | 13,4 | 26,3 | 352,42 | 179,56 | 691,69 | 25,31 | 0,99 | 0,9801 |
3 | 14,9 | 28,2 | 420,18 | 222,01 | 795,24 | 28,16 | 0,04 | 0,0016 |
4 | 14,9 | 27,5 | 409,75 | 222,01 | 756,25 | 28,16 | -0,66 | 0,4356 |
5 | 15,2 | 28,3 | 430,16 | 231,04 | 800,89 | 28,73 | -0,43 | 0,1849 |
6 | 16,3 | 31,3 | 510,19 | 265,69 | 979,69 | 30,82 | 0,48 | 0,2304 |
сумма | 87,3 | 165 | 2417,54 | 1279,07 | 4571,32 | 164,97 | 0,03 | 1,9847 |
среднее | 14,55 | 27,5 | 402,9233 | 213,1783 | 761,8867 | 27,495 |
|
|
Определим параметры b и а уравнения регрессии:
b = (ху - х * у) / (х2 – (х )2 =(402,9233-14,55*27,5)/(213,
а = у – b * х = 27,5-1,9*14,55 = -0,15.
Уравнение регрессии второй группы ỹ = 1,9+(-0,15)*х.
Подставляя в это уравнение фактические значения х, определим х, ỹ, (y- ỹ) и (y- ỹ)2 . Тогда
∑15i=10 (y- ỹ)2 = 0,330783.
Находим отношение
Fф = ∑6i=1 (y- ỹ)2 / ∑15i=10 (y- ỹ)2 = 2,8092/1.9847 = 1,41
Если ∑6i=1 (y- ỹ)2 › ∑15i=10 (y- ỹ)2 ,
А если ∑6i=1 (y- ỹ)2 ‹ ∑15i=10 (y- ỹ)2 ,
То ∑6i=1 (y- ỹ)2 / ∑15i=10 (y- ỹ)2 )
Сравним фактическое и табличное F – критерия Фишера.
Fтабл = (α=0.05, k1 = k2 (15-3):2-2=4)=6,39.
Fфакт ‹ Fтабл , следовательно остатки гомоскедастичны.
5. Рассчитаем прогнозное значение результата у, если прогнозное значение фактора х увеличивается на 5% от его среднего уровня.
х = 11,26667, хр = 1,69*11,2667 = 19.04,
ỹ = 2,64+1,69*19,04 = 34,82.
Для величины выпуска продукции равной 19,04 тысячи, прогнозное значение затрат составят 34,82 млн. руб.
Для уровня значимости α=0.05 определим доверительный интервал прогноза. Предварительно определим стандартные ошибки коэффициента корреляции mrxy и параметра b – mb .
mrxy = √(1-r2)/(n-2)=√(1-0.960)/(15-
mb = σy/ σx*mr = 5,3/3,083*0,05 = 0,09
Тогда средняя стандартная ошибка прогноза:
mỹ = mb √σ2x(n+1)+( хр-x)2 = 0,09√3,0832 *(15+1)+(19,04-11,26667)2 = 1,31
Для уравнения значимости α=0.05 определим табличное значение
t – статистики Стьюдента:
tтабл (α=0.05, k=15-2)=2,16
Тогда доверительный интервал прогноза (ỹmin, ỹmax):
ỹmin =ур - tтабл * mỹ = 34,82-2,16*1,31=31,99
ỹmax= ур + tтабл * mỹ = 34,82+2,16*1,31=37,65
Т.е. с вероятностью 0,95 прогнозное значение ỹр при хр = 1,69*х принадлежит интервалу (31,99;37,65).
Прогноз надежный, но не точный, т.к. интервал достаточно широк
D = ỹmax/ ỹmin= 37,65/31,99 = 1,18.
Задание №2.
Таблица №1
№ | y | x1 | x2 | x3 | y2 | x12 | x22 | x32 | yx1 | yx2 | yx3 | x1x2 | x1x3 | x2x3 | ỹ | y-ỹ | Ai |
1 | 3,6 | 26 | 6 | 18 | 12,96 | 676 | 36 | 324 | 93,6 | 21,6 | 64,8 | 156 | 468 | 108 | 3,43 | 0,17 | 4,72 |
2 | 4,3 | 43 | 19 | 16 | 18,49 | 1849 | 361 | 256 | 184,9 | 81,7 | 68,8 | 817 | 688 | 304 | 4,07 | 0,23 | 5,35 |
3 | 3,8 | 35 | 10 | 12 | 14,44 | 1225 | 100 | 144 | 133 | 38 | 45,6 | 350 | 420 | 120 | 3,57 | 0,23 | 6,05 |
4 | 3,3 | 33 | 7 | 14 | 10,89 | 1089 | 49 | 196 | 108,9 | 23,1 | 46,2 | 231 | 462 | 98 | 3,57 | -0,27 | 8,18 |
5 | 2,9 | 26 | 2 | 10 | 8,41 | 676 | 4 | 100 | 75,4 | 5,8 | 29 | 52 | 260 | 20 | 3,11 | -0,21 | 7,24 |
6 | 3,6 | 37 | 18 | 23 | 12,96 | 1369 | 324 | 529 | 133,2 | 64,8 | 82,8 | 666 | 851 | 414 | 4,10 | -0,50 | 13,89 |
7 | 4,4 | 40 | 14 | 23 | 19,36 | 1600 | 196 | 529 | 176 | 61,6 | 101,2 | 560 | 920 | 322 | 4,22 | 0,18 | 4,09 |
8 | 4,2 | 38 | 20 | 25 | 17,64 | 1444 | 400 | 625 | 159,6 | 84 | 105 | 760 | 950 | 500 | 4,22 | -0,02 | 0,48 |
9 | 4,6 | 47 | 28 | 27 | 21,16 | 2209 | 784 | 729 | 216,2 | 128,8 | 124,2 | 1316 | 1269 | 756 | 4,68 | -0,08 | 1,74 |
10 | 4,3 | 46 | 25 | 19 | 18,49 | 2116 | 625 | 361 | 197,8 | 107,5 | 81,7 | 1150 | 874 | 475 | 4,31 | -0,01 | 0,23 |
11 | 3,5 | 25 | 7 | 14 | 12,25 | 625 | 49 | 196 | 87,5 | 24,5 | 49 | 175 | 350 | 98 | 3,23 | 0,27 | 7,71 |
12 | 3,8 | 27 | 9 | 21 | 14,44 | 729 | 81 | 441 | 102,6 | 34,2 | 79,8 | 243 | 567 | 189 | 3,60 | 0,20 | 5,26 |
13 | 2,9 | 24 | 4 | 10 | 8,41 | 576 | 16 | 100 | 69,6 | 11,6 | 29 | 96 | 240 | 40 | 3,03 | -0,13 | 4,48 |
14 | 4,5 | 45 | 18 | 23 | 20,25 | 2025 | 324 | 529 | 202,5 | 81 | 103,5 | 810 | 1035 | 414 | 4,43 | 0,07 | 1,56 |
15 | 3,1 | 27 | 6 | 12 | 9,61 | 729 | 36 | 144 | 83,7 | 18,6 | 37,2 | 162 | 324 | 72 | 3,24 | -0,14 | 4,12 |
∑ | 56,8 | 519 | 193 | 267 | 219,76 | 18937 | 3385 | 5203 | 2024,5 | 786,8 | 1047,8 | 7544 | 9678 | 3930 | 56,81 | -0,01 | 75,10 |
Ср.зн. | 3,78667 | 34,60 | 12,87 | 17,80 | 14,6507 | 1262,467 | 225,6667 | 346,867 | 134,97 | 52,45 | 69,85 | 502,93 | 645,20 | 262,00 | 3,79 |
| 5,01 |
σ | 0,556 | 8,081 | 7,748 | 5,480 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1. Для оценки мультиколлинеарности факторов используем определитель матрицы парных коэффициентов корреляции между факторами. Определим парные коэффициенты корреляции. Для этого рассчитаем таблицу (табл.1).
По исходным данным рассчитываем y2 , x12 , x22 , x32 , yx1 , yx2 , yx3 , x1x2 , x1x3 , x2x3 .
Определим σy , σx1 , σx2 , σx3:
σy = √y2-(y)2 = √14,65 – (3,787)2 = √0,26 = 0,556
σx1 = √x12-(x1)2 = √1262,467 – 1197,16 = √65,2 = 8,081
σx 2 = √x22-(x2)2 = √225,667 – 165,637 = √60,03= 7,748
σx 3 = √x32-(x3)2 = √346,867 – 316,84 = √30,027 = 5,480
Тогда парные коэффициенты корреляции:
r yx1 = (yx1 – y*x1)/ σy* σx1 = (134,97 – 3,787*34,6) / 0,556*8,081 = 0,877
r yx2 = (yx2 – y*x2)/ σy* σx2 = (52,45 – 3,787*12,87) / 0,556*7,748 = 0,861
r yx3 = (yx3 – y*x3)/ σy* σx3 = (69,85 – 3,787*17,8) / 0,556*5,480 = 0,801
r x1x2 = (x2x1 – x2*x1)/ σx2* σx1 = (502,93 – 12,87*34,6) / 7,748*8,081 = 0,920
r x1x3 = (x3x1 – x3*x1)/ σx3* σx1 = (645,20 – 17,8*34,6) / 5,480*8,081 = 0,662
r x3x2 = (x2x3 – x2*x3)/ σx2* σx3 = (262 – 12,87*17,8) / 7,748*5,480= 0,775
Определитель матрицы парных коэффициентов межфакторной корреляции:
r x1x1 r x1x2 r x1x3 1 0,920 0,662
Δ = r x1x2 r x2x2 r x3x2 = 0,920 1 0,775 = 0,059
r x1x3 r x3x2 r x3x3 0,662 0,775 1
Его значение близко к нулю, это говорит о том, что факторы мультиколлинеарны. Из модели следует исключить фактор, в наибольшей степени ответственный за мультиколлинеарность.
Проанализируем матрицу парных коэффициентов корреляции:
Таблица №2.
| y | x1 | x2 | x3 |
y | 1 |
|
|
|
x1 | 0,877 | 1 |
|
|
x2 | 0,861 | 0,920 | 1 |
|
x3 | 0,801 | 0,662 | 0,775 | 1 |