Автор работы: Пользователь скрыл имя, 12 Июня 2012 в 11:05, практическая работа
1. Построить корреляционное поле
2. Вычислить коэффициент корреляции и проверить его значимость
3. Построить регрессионную модель.
4. Проверить значимость параметров модели
Вариант 10
Практическое задание.
1. Построить корреляционное поле
2. Вычислить коэффициент корреляции и проверить его значимость
3. Построить регрессионную модель.
4. Проверить значимость параметров модели
Теоретический вопрос
Категориальные (булевы) переменные. Регрессионный анализ с категориальными переменными
Категориальная переменная - переменные, принимающие значения из некоторого ограниченного набора категорий. Они обычно связаны с неисчисляемыми признаками, такими как названия (товаров, услуг и др.), имена людей, исходы событий (да/нет) и т.д. Категориальными всегда являются выходные переменные в классификационных моделях (метки классов). Как правило, значения категориальных переменных являются строковыми. Но иногда могут использоваться и числа, если, например, некоторое наименование кодируется числовым значением. Например, вместо категорий «Низкий», «Средний» и «Высокий» в модели оценки кредитного риска можно использовать значения 0, 1 и 2. Очевидно, что применять обычные математические операции к категориальным переменным нельзя (кроме «равно» - «не равно»), даже если они представлены числами
С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.
Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.
Вероятность наступления события для некоторого случая рассчитывается по формуле
где z= b 1 *X 1 + b 2 хХ 2 + ...+ b n xX n + a ,
X 1 — значения независимых переменных, b 1 — коэффициенты, расчёт которых является задачей бинарной логистической регрессии, а — некоторая константа.
Если для р получится значение меньшее 0,5, то можно предположить, что событие не наступит; в противном случае предполагается наступление события.
Практическая часть
Х | 13,8 | 18,1 | 22,5 | 15,8 | 26 | 26,1 | 19,8 | 10,8 | 35,6 | 13,5 |
У | 17,7 | 20,8 | 20,9 | 16,8 | 22,6 | 19,7 | 20,4 | 12,4 | 34,9 | 12,9 |
Коэффициент корелляции
| X | Y |
X | 1 |
|
Y | 0,920521 | 1 |
Проверка значимости коэффициента корреляции
Трасч= 6,664102
Ткр= 2,306006
Так как Трасч> Ткр принимается гипотеза о значимости
Расчет доверительного интервала коэффициента корреляции
а) Преобразование Фишера
Zρ=1,592427
б) ΔZ= 0,627144
в) доверительный интервал коэффициента корреляции [0,747175; 0,977098]
Расчет регрессионной модели.
Regression Statistics | |
Multiple R | 0,920520564 |
R Square | 0,84735811 |
Observations | 10 |
Коэффициент детерминации модели R= 0,847 свидетельствует, что модель работает на85%
| Coefficients | Standard Error | t Stat | P-value |
Intercept | 4,401666667 | 2,468038814 | 1,78346736 | 0,112354436 |
Х | 0,767739274 | 0,115205215 | 6,664101767 | 0,000158475 |
Значения P-value для :
У пересечения =0,112354436>0,05 свидетельствует о его незначимости;
Х=0,000158475< 0,05. Свидетельствует о его значимости
Необходимо сделать пересчет регрессионной модели, установив константу нуль
Regression Statistics | ||||||||
Multiple R | 0,991214844 | |||||||
| Coefficients | Standard Error | t Stat | P-value | Lower 95% | Upper 95% | ||
Х | 0,961474603 | 0,042764418 | 22,48305102 | 3,22712E-09 | 0,864734767 | 1,058214438 |
Работает на 99% и имеет вид
У=0,99Х+е
Доверительный интервал для углового коэффициента
[0,864734767 1,058214438]