Множественная регрессия

Автор работы: Пользователь скрыл имя, 01 Марта 2014 в 21:57, реферат

Краткое описание

В предыдущем разделе рассматривалась простая линейная регрессия для предсказания за-
висимой переменной Y на основании значений независимой переменной Х (предиктора). В множест-
венной регрессии зависимая переменная предсказывается на основании нескольких независимых пе-
ременных. Например, при наличии трех предикторов X

Вложенные файлы: 1 файл

Множественная регрессия.pdf

— 527.29 Кб (Скачать файл)
Page 1
1
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
Модели регрессии с несколькими параметрами
В предыдущем разделе рассматривалась простая линейная регрессия для предсказания за-
висимой переменной Y на основании значений независимой переменной Х (предиктора). В множест-
венной регрессии зависимая переменная предсказывается на основании нескольких независимых пе-
ременных. Например, при наличии трех предикторов X
I,
Х
2
и Х
з
модель множественной регрессии при-
нимает форму
ε
β
β
β
β
+
+
+
+
=
3
3
2
2
1
1
0
x
x
x
y
где коэффициенты
3
2
1
0
,
,
,
β
β
β
β
- неизвестные парамет-
ры; ε ; - случайная ошибка с нормальным распределением со средним О и дисперсией
2
σ .
Учтите, что предикторы могут быть функциями переменных, как в показанных ниже примерах
моделей множественной регрессии:
- Полиномиальная:
ε
β
β
β
β
+
+
+
+
=
3
3
2
2
1
0
x
x
x
y
;
- Тригонометрическая:
ε
β
β
β
+
+
+
=
)
cos(
)
sin(
2
1
0
x
x
y
;
- Логарифмическая:
ε
β
β
β
+
+
+
=
)
log(
)
log(
2
2
1
1
0
x
x
y
.
Обратите внимание: все эти уравнения являются примерами линейных моделей, даже несмотря
на использование в них тригонометрических и логарифмических функций. Слово "линейный" в опре-
делении линейная модель относится к коэффициентам
3
2
1
0
,
,
,
β
β
β
β
и случайной ошибке ε , т.е. данные
уравнения линейны по отношению к этим значениям. Например, можно создать новые переменные l =
sin (х) и k = cos (х), а затем еще одну модель на основе линейного уравнения
ε
β
β
β
+
+
+
=
k
l
y
2
1
0
.
После вычисления оценок для коэффициентов
i
β придется вставить их в уравнение для пред-
сказания значений переменной у. Тогда оценочная модель регрессии выражается следующей форму-
лой:
3
3
2
2
1
1
0
x
b
x
b
x
b
b
y
+
+
+
=
, где
i
b - оценки коэффициентов
i
β , а остаток соответствует случайной
ошибке ε .
F-распределение
F-распределение - это базовое распределение для анализа регрессии и анализа остатков, которое
подробно рассматривается в этой и следующего раздела. Пример F-распределения приводится в учеб-
ном пособии Распределения.хls (Distributions.xls). Для знакомства с основами F-распределения
выполните перечисленные ниже действия.
1. Откройте учебное пособие Распределения.xls (Distributions.xls), которое находится в ка-

Page 2

2
талоге Учебные пособия (Student). Включите режим поддержки макросов.
2. Выберите раздел F, просмотрите материал об основах F-распределения и прокрутите содер-
жимое рабочего листа вниз, как показано на рис. 2.1. или на рис.2.1.1.
Рис. 2.1. Рабочий лист с примерами F-распределения
Рис. 2.1.1. Рабочий лист с примерами F-распределения
F-распределение имеет две степени свободы: числитель и знаменатель степеней свободы.
Обычно F-распределение обозначается символами Р(т,п), где т - это числитель, а п - знаменатель сте-
пеней свободы. На рис. 2.1 и рис.2.1.1. показано распределение Е(4,9) .
Подобно распределению
2
χ , F-распределение является асимметричным. Для просмотра степе-
ни асимметрии F-распределения в рабочем листе данного учебного пособия можно изменять значения
числителя и знаменателя степеней свободы с помощью соответствующих полей. Поэкспериментируйте
с параметрами рабочего листа для просмотра изменений F-распределения по мере изменения количе-
ства степеней свободы.
Для увеличения значения числителя и знаменателя степеней свободы выполните перечисленные
ниже действия.
1. Щелкните на направленной вверх стрелке для увеличения числителя степеней свободы до 10.
2. Щелкните на направленной вверх стрелке для увеличения знаменателя степеней свободы до
15. Понаблюдайте за изменениями формы F-распределения.
Для изменения р-значения выполните перечисленные ниже действия.

Page 3

3
1. Введите значение 0,10 в поле p-значение (p -Vаluе).
2. Нажмите клавишу <Enter> для указания критического значения F-распределения на уровне
10% статистической значимости.
Обратите внимание, что критическое значение сдвигается влево, т.е. 10% значений F-
распределения располагаются справа от этой точки.
Продолжите эксперименты с разными значениями F-распределения, пытаясь ввести разные зна-
чения параметров для получения представления об F-распределении.
Для закрытия рабочего листа выполните перечисленные ниже действия.
1. Выберите команду меню Файл-3акрыть.
2. В ответ на предложение о сохранении изменений щелкните на кнопке Нет для отказа от со-
хранения.
Применение регрессии для предсказаний
Одной из задач анализа регрессии является предсказание значений. Например, регрессию мож-
но использовать для предсказания успеваемости по исчислению (зависимая переменная) во время обу-
чения студента в институте на основании известных оценок по экзаменам по математике и физике в
школе, персентильного ранга в школе и оценки на экзамене во время первой недели обучения в инсти-
туте (независимые переменные). Студентам с низкими предсказанными оценками можно предложить
подготовительный курс обучения.
Допустим, что зависимая переменная - это цена дома с четырьмя спальнями, а независимые пе-
ременные - это его площадь, возраст здания, текущая рентная плата и уровень комфорта. С помощью
этих переменных можно проанализировать данные и найти недооцененный дом, который имеет цену
меньше предсказываемой. Например, в результате анализа регрессии можно найти недооцененный
дом, который по ряду причин срочно продается по намеренно низкой цене.
Множественная регрессия может использоваться для просмотра влияния нескольких перемен-
ных в целях предсказания зависимой переменной. Насколько изменчивость зависимой переменной
объясняется изменчивостью предикторов? Верно ли, что комбинация независимых переменных лучше
описывает поведение зависимой переменной, чем отдельные корреляции с зависимой переменной?
Кроме того, интерес могут представлять отдельные коэффициенты корреляции: например, можно ли
их использовать в уравнении регрессии? Можно ли исключить некоторые предикторы без ущерба для
точности предсказания?
Анализ регрессии можно использовать для оценки дискриминации одной группы по сравнению
с другой, например меньшей оплаты труда женщин по сравнению с мужчинами. Для этого в уравнение

Page 4

4
регрессии следует включить параметр, учитывающий половой признак. Можно также создать модель
регрессии для мужчин, затем применить ее к женщинам и проверить, существует ли зарплата, меньше
предсказываемых значений для одинаковой работы. В настоящее время эти аргументы широко приме-
няются в суде США и многие статистики имеют опыт участия в судебных заседаниях.
Пример регрессии: предсказание оценок
В качестве примера множественной регрессии рассмотрим данные из файла Оценки.хls
(Саlс.xls), которые были собраны для изучения зависимости успеваемости первокурсников от разных
предикторов.
Для открытия рабочей книги Оценки.хls (Сalc.xls) выполните перечисленные ниже действия.
1. Откройте рабочую книгу Оценки.хls (Calc.xls), которая находится в каталоге Примеры
(Stиdent).
2. Выберите команду Файл - Сохранить как, выберите каталог Примеры (Stиdent) и сохраните
рабочую книгу в файле ОценкиЗ.xls (СаlсЗ .xls).
В предыдущем разделе на основании матрицы точечных диаграмм корреляции установлено, что
предиктор "оценка по алгебре" позволяет наилучшим образом предсказать оценку за первый семестр
(хотя и не очень успешно). Множественная регрессия дает представление о точности предикторов при
их совместном использовании. В данном примере используется следующая модель множественной
регрессии:
ε
β
β
β
β
β
β
β
+
+
+
+
+
+
+
+
=
)
_
(
)
(
)
_
2
_
(
)
_
(
)
(
)
_
_
(
6
5
4
3
2
1
0
пола
Код
Ранг
год
Алгебра
е
поступлени
Алгебра
АСТ
школе
в
Исчисление
оценки
Чтобы выполнить анализ множественной регрессии, следует прибегнуть к команде Регрессия
модуля Пакет анализа, для использования которой нужно применять непрерывные диапазоны. В
качестве предикторов следует использовать столбцы А, в, С, D, Е И G, поэтому для соблюдения усло-
вия непрерывности диапазона нужно переместить данные из столбца G в столбец Р.
Для перемещения столбца G в столбец F вслед за столбцами диапазона А: Е выполните пере-
численные ниже действия.
1. Щелкните на заголовке столбца G для его полного выделения.
2. Щелкните правой кнопкой мыши на выделенном столбце G и выберите команду Вырезать
(Cut) в контекстном меню.
3. Щелкните на заголовке столбца Р.
4. Щелкните правой кнопкой мыши на выделенном столбце F и выберите команду Добавить

Page 5

5
вырезанные ячейки (Insert Cut Cel1s) в контекстном меню. Теперь в качестве переменных-предикторов
можно указать непрерывный диапазон столбцов А: Р.
Для анализа множественной регрессии оценки за первый семестр на основе переменных Ис-
числение_в_школе (Calc_HS), АСТ (ACT_Math), Алгебра_поступление (Alg_Place), Алгеб-
ра_2год (Alg2_Grade), Ранг (HS_Rank) и Код_пола (Gender_code) попробуем использовать коман-
ду Регрессия модуля Пакет анализа.
Для анализа множественной регрессии выполните перечисленные ниже действия.
1. Выберите команду меню Сервис-Анализ данных (Toolsq Data Analysis) листа Множест-
венная регрессия, затем элемент Регрессия в диалоговом окне Анализ данных и щелкните на
кнопке ОК.
2. В появившемся диалоговом окне Регрессия введите диапазон H1:Н81 в поле Входной
интервал У (Inpиt У Range), нажмите клавишу <Таb>, а затем введите диапазон A1:F81 в поле
Входной интервал Х (Inpиt Х Range).
3. Установите флажки Метки (Labels) и Уровень надежности (Confidence Level), а затем
введите значение 95 в текстовом поле справа.
4. Выберите переключатель Новый рабочий лист (New Worksheet Ply), а затем введите зна-
чение Множественная регрессия (Mult Reg) в текстовом поле справа.
5. В разделе Остатки (Residuals) установите флажки Остатки (Residuals), Стандартизо-
ванные остатки (Standardized Residuals), График остатков (Residual Plots) и График подбора
(Line Fit Plots). После выполнения этих действий диалоговое окно Регрессия будет выглядеть так,
как на рис. 2.2.
Рис. 2.2. Окончательный вид диалогового окна Регрессия
6. Щелкните на кнопке ОК.
После этого Excel автоматически создаст новый рабочий лист Множественная регрессия

Page 6

6
(Mult Reg) с итоговыми параметрами регрессии и диаграммой остатков.
Интерпретация итоговых параметров регрессии
Для интерпретации итоговых параметров регрессии рассмотрим сначала таблицу Дисперси-
онный анализ (ANOVA), которая находится в ячейках A10:F14. На рис. 2.3 этот диапазон показан с
расширенными столбцами для полного отображения подписей и значений. В таблице анализа диспер-
сии дается информация о статистической значимости подогнанной модели регрессии.
Дисперсионный анализ основывается на следующих гипотезах:
- нулевая гипотеза Н
о
: коэффициенты регрессии для всех шести предикторов равны 0;
- альтернативная гипотеза Н
а
: по крайней мере один из шести коэффициентов регрессии не равен 0.
Рис. 2.3. Таблица дисперсионного анализа для множественной регрессии в ячейках А10:F14
В таблице дисперсионного анализа содержится несколько частей, которые кратко рассмотрены
в предыдущем разделе. В данном при мере следует сконцентрироваться только на F-отношении и р-
значении, которые определяют статистическую значимость регрессии.
F-отношение очень велико (а р-значение мало) в том случае, когда изменчивость зависимой пе-
ременной в основном объясняется изменчивостью независимой переменной. Наоборот, F-отношение
очень мало в том случае, когда изменчивость зависимой переменной объясняется случайностью (кото-
рая оценивается остатками модели), а не изменчивостью независимой переменной.
В ячейке Е12 приводится значение 7,197 для F-отношения. В рамках нулевой гипотезы предпо-
лагается, что между оценкой по математике за первый семестр и шестью предикторами нет взаимосвя-
зи. Если нулевая гипотеза верна, то F-отношение в таблице дисперсионного анализа удовлетворяет F-
распределению с равным 6 числителем степеней свободы и равным 73 знаменателем степеней свобо-
ды. Для проверки нулевой гипотезы нужно сравнить вычисленное значение F-отношения с ожидаемым
значением F-распределения.
Для получения визуального представления этой гипотезы следует использовать рабочий лист F-
распределения из рабочей книги Распределения.хls (Distributions.xls) и отобразить в нем распре-
деление F (6, 73).
В столбце Значимость F (Significance F) в ячейке F12 приводится р-значение 4,69*10
-6
, кото-
рое представляет вероятность того, что F -отношение с числителем 6 и знаменателем 73 имеет значе-

Page 7

7
ние 7,197 или больше. Эта вероятность гораздо ниже 0,05, т.е. регрессия имеет статистическую значи-
мость на уровне 5%. Иными словами, нулевую гипотезу можно отвергнуть на уровне статистической
значимости 5% и принять альтернативную гипотезу о том, что по крайней мере один из коэффициен-
тов регрессии не равен нулю. Если F-отношение не имеет достаточную статистическую значимость, то
нет смысла интересоваться остальными результатами анализа.
Множественная корреляция
На рис. 2.4 показана таблица со статистическими параметрами регрессии, которые располага-
ются в диапазоне ячеек АЗ: В8. (Учтите, что на этом рисунке все столбцы отформатированы для удоб-
ного просмотра подписей и значений параметров.)
Рис. 2.4. Таблица со статистическими параметрами регрессии
В ячейке В5 находится значение 0,372 параметра Множественный R (R Square), Т.е. коэффи-
циент R
2
, который рассматривается в предыдущем арзделе. Это значит, что 37% изменчивости оценок
по математике за первый семестр можно приписать регрессии. Иначе говоря, 37% изменчивости оце-
нок по математике за первый семестр объясняется персональными различиями студентов, которые вы-
ражаются разнообразием значений предикторов, а оставшийся процент изменчивости упомянутых
оценок объясняется случайными отклонениями. Это значение может показаться очень низким, но, к
сожалению, многие предсказания делаются на основании крайне слабой связи с предикторами, вклю-
чая решения о приеме в колледж и школу, способности первокурсников к занятиям спортом и распре-
деление студентов по группам.
В ячейке В4 находится значение 0,610 параметра Множественный R (R Square), т.е. квадрат-
ный корень параметра R
2
, который также называется коэффициентом множественной корреляции
(multiple correlatioп coеfficieпt). Он описывает корреляцию между предсказываемой переменной, т.е.
оценкой по математике после первого семестра, и линейной комбинацией предикторов. При наличии
только одного предиктора это значение равняется абсолютной величине корреляции между предикто-
ром и зависимой переменной.
В ячейке В6 находится значение 0,320 параметра Нормированный R-квадрат (Adjusted R
Square), подогнанное значение R
2
для нескольких предикторов. Его удобнее использовать вместо непо-

Page 8

8
догнанного значения R
2
, так как последнее увеличивается или остается прежним при увеличении числа
предикторов в модели.
При использовании очень большого количества предикторов можно получить очень большое
значение R
2
. Но анализ набора данных из 200 наблюдений не даст ощутимых результатов при исполь-
зовании модели регрессии с 200 предикторами, даже если значение R
2
равно 100%. Подгонка значения
R
2
компенсирует это и помогает определить обоснованность добавления новых предикторов.
В ячейке В7 находится значение 9,430 параметра Стандартная ошибка (Standard Error), т.е.
оценка стандартного отклонения
2
σ ошибки ε . Иначе говоря, этот параметр выражает стандартное от-
клонение оценки по математике по окончании первого семестра после компенсации изменений пре-
дикторов. Стандартную ошибку можно представить как типичную ошибку предсказания 80 оценок.
Поскольку 10 точек покрывают один уровень подготовки студентов (например, студентов от уровня А
до уровня В, от уровня В до уровня С и т.д.), типичная ошибка предсказания равна переходу от одного
уровня подготовки к другому.
Коэффициенты и предсказанное уравнение регрессии
Итак, нам известно, что данная модель регрессии статистически значима и объясняет около 37%
изменчивости оценки по математике после первого семестра. Как выглядит уравнение регрессии и ка-
кие предикторы имеют наибольшую статистическую значимость?
На рис. 2.5 параметры уравнения регрессии показаны в ячейках А16: I23, а имена предикторов -
в первом столбце.
Рис. 2.5. Оценки параметров уравнения регрессии и р-значения
В столбце Коэффициенты (Coefficients) в ячейках В16: В23 находятся оценки коэффициентов
уравнения регрессии. Соответствующее предсказанное уравнение регрессии имеет вид:
)
_
(
627
,2
)
(
111
,0
)
_
2
_
(
683
,3
)
_
(
827
,0
)
(
352
,0
)
_
_
(
192
,7
943
,
27
пола
Код
Ранг
год
Алгебра
е
поступлени
Алгебра
АСТ
школе
в
Исчисление
оценки
+
+
+
+
+
+
+
=
Коэффициент перед каждой переменной показывает изменение оценки по математике за первый
семестр при изменении переменной на 1, если другие переменные остаются неизменными. Например,

Page 9

9
коэффициент 0,352 перед переменной АСТ (Act_Math) означает, что оценка по математике (переменная
Оценка (Calc) за первый семестр увеличивается на 0,352 при изменении переменной АСТ (Act_Math)
на 1, если другие переменные остаются неизменными.
Некоторые переменные, например в данном случае Исчисление_в_школе (Calc_HS), могут
иметь значение 0 или 1, что соответствует отсутствию или наличию курса исчисления в школьной про-
грамме. Коэффициент 7,192 перед переменной Исчисление_в_школе (Calc_HS) обозначает степень
ее влияния на оценку по математике за первый семестр, если другие переменные остаются неизменны-
ми. Поскольку две группы студентов с разным уровнем подготовки разделяет значение 10, коэффици-
ент 7,192 перед переменной Исчисление_в_школе (Сalc_HS) означает переход от одной группы
студентов к другой группе с разным уровнем подготовки.
С помощью коэффициентов уравнения регрессии можно предсказать оценку по математике за
первый семестр, зная базовые сведения об успеваемости студента. Допустим, что студент не учил ис-
числение в школе, получил оценку 30 по экзамену АСТ, оценку 23 по алгебре в школе, оценку 4,0 по
алгебре на втором году ее изучения в школе, а также имел успеваемость выше 90% своих сверстников
в школе. В таком случае его оценку (переменная Оценка (Сalc)) можно предсказать с помощью урав-
нения:
75
87
,
74
)1(
627
,2
)
90
(
111
,0
)0
,4
(
683
,3
)
23
(
827
,0
)
30
(
352
,0
)0
(
192
,7
943
,
27

=
+
+
+
+
+
+
=
оценки
Обратите внимание: коэффициент перед переменной Код_пола (Gender_Code) равен 2,627, что
означает степень влияния полового признака на оценку по математике за первый семестр, если другие
переменные остаются неизменными. Поскольку мужской пол обозначается 1, а женский - 0, тогда, если
модель регрессии верна, студент может получить оценку на 2,627 балла выше студентки при равных
значениях прочих предикторов.
Степень доверия к этому выводу зависит частично от статистической значимости коэффициента
перед переменной Код_пола (Gender_Code). Для этого нужно установить, с какой точностью опреде-
лен этот коэффициент. Это можно сделать, проверяя оценочное значение стандартного отклонения ко-
эффициентов, которое показано в столбце Стандартная ошибка (Standard Error).
t-tecты коэффициентов
В столбце t-статистика (t_Stat) показано отношение между коэффициентом и стандартной
ошибкой. Если совокупный коэффициент равен 0, то он должен удовлетворять t-распределению со
степенями свободы п - р - 1 = 80 - 6 - 1 = 73. Здесь п количество наблюдений (80); р - количество пре-
дикторов (6). в столбце Р-значение (P-value) находится соответствующее р-значение. Например, t-

Page 10

10
значение для переменной Алгебра-поступление (Alg_place) равно 3,092, т.е. вероятность того, что
t-значение больше или равно абсолютной величине, составляет 0,003. Этот коэффициент имеет стати-
стическую значимость на уровне 5%, так как t-значение меньше 0,05. В контексте проверки гипотез
следует отвергнуть нулевую гипотезу о том, что коэффициент равен 0 на уровне 5% статистической
значимости, и принять альтернативную гипотезу. Это двусторонний тест (т.е. в нем нулевая гипотеза
отвергается для очень больших положительных и очень больших отрицательных значений t), поэтому
альтернативная гипотеза заключается в том, что коэффициент не равен 0. Обратите внимание, что дос-
таточной статистической значимостью обладают только коэффициенты перед переменными
Alg_Place и Calc_HS. Это значит, что не нужно уделять особое внимание другим предикторам, на-
пример не имеет смысла утверждать, что студенты демонстрируют более высокую успеваемость, чем
студентки.
В диапазоне F17 : G23 приводятся данные о 95%-ном доверительном интервале для каждого ко-
эффициента. Например, с вероятностью 95% можно утверждать, что наличие курса исчисления в
школьной программе связано с увеличением оценки по математике за первый семестр не менее чем на
2,233 пункта и не более чем на 12,151 пункта в данном уравнении регрессии.
Странно, что оценка по экзамену АСТ практически не имеет значения, хотя этот экзамен счита-
ется достаточно надежным индикатором успеваемости по математике. Если вернуться к матрице ко-
эффициентов корреляции в предыдущем разделе, то можно заметить, что коэффициент их корреляции
равен 0,353 с достаточно высоким уровнем значимости р = 0,001. Почему же коэффициент перед пере-
менной АСТ (ACT_Math) не обладает такой высокой статистической значимостью? Дело в том, что
другие переменные также включают аналогичную информацию.
При использовании t-распределения для проверки значимости оценки по экзамену АСТ прове-
ряется возможность удаления данной переменной без ущерба для предсказания. Если другие предик-
торы способны предоставить гораздо больше такой информации, то данная переменная не обладает
высокой статистической значимостью и не нужна в этой модели. Если каждый предиктор можно пред-
сказать на основе других предикторов, то его можно исключить из анализа без большого ущерба для
предсказания.
В таком случае появляется искушение удалить все переменные, которые не имеют достаточной
статистической значимости. Но отдельные тесты могут быть взаимосвязаны и удаление одной пере-
менной может привести к изменению значимости связанных с ней переменных. После удаления даже
наименее значимой переменной значимость других переменных может заметно повыситься. При уда-
лении нескольких предикторов придерживайтесь некоторых рекомендаций.
1. Исключите наименее статистически значимую переменную, если она не имеет достаточной

Page 11

11
статистической значимости.
2. Повторно выполните анализ регрессии.
3. Повторяйте предыдущие этапы до тех пор, пока все предикторы не будут иметь достаточную
статистическую значимость.
В упражнениях в конце раздела предоставляется возможность еще раз выполнить анализ данной
модели и исключить все не значительные переменные. А теперь приступим к проверке обоснованно-
сти допущений модели.
Проверка допущений регрессии
Существует несколько способов проверки результатов множественной линейной регрессии. В
данном разделе рассматриваются четыре основных диаграммы, которые используются для оценки ус-
пеха регрессии.
1. Диаграмма зависимой от предикторов переменной с отображением соответствия линии рег-
рессии и данных.
2. Диаграмма остатков от предикторов с отображением вертикального разброса данных, что
также позволяет проверить обоснованность допущений модели. Искривленная форма распределения
остатков свидетельствует о несоответствии выбранной модели и данных. Если вертикальный разброс
ширена одной стороне диаграммы, то предполагается, что дисперсия не является постоянной.
3. Диаграмма остатков от отдельных предикторов, которая позволяет легко обнаружить про-
блемы, не очевидные на диаграмме остатков от предикторов.
4. Диаграмма плотности вероятности остатков, которая позволяет оценить обоснованность до-
пущений о нормальном распределении остатков в данной модели регрессии.
Наблюдаемые и предсказываемые значения
Насколько удовлетворительной является регрессия? Для визуального анализа соответствия мо-
дели регрессии и данных создадим диаграмму переменной Оценка (Calc) и предиктора АСТ
(ACT_Math) (в ячейках В29:В109). (Для просмотра всех значений в данном диапазоне прокрутите со-
держимое рабочего листа.) Чтобы создать диаграмму наблюдаемых и предсказываемых значений
оценки по математике за первый семестр, нужно сначала подготовить данные.
Для копирования наблюдаемых значений выполните перечисленные ниже действия.
1. В рабочем листе Множественная регрессия (Mu1t Reg) выберите диапазон В29:В109 и
щелкните на кнопке Копировать в стандартной панели инструментов.

Page 12

12
2. Выберите рабочий лист Данные об оценках (Calculus Data).
3. Выберите диапазон Н1:Н81, а затем выберите команду меню Вcтaвкa - Скопированные
ячейки (Insert-Copied Cells) для вставки предсказываемых значений в столбец Н.
4. В появившемся диалоговом окне Вставка скопированных ячеек выберите переключатель
Добавить диапазон со сдвигом вправо (Shift Cells Right) для смещения наблюдаемых оценок
в столбец I и щелкните на кнопке ОК. После выполнения этих действий предсказываемые значения
появятся в столбце Н, как показано на рис. 2.6. (Здесь ячейки отформатированы для более удобного
просмотра заголовков столбцов.)
Рис. 2.6. Предсказываемые и наблюдаемые оценки
Попробуем теперь создать диаграмму на основе данных в диапазоне Н1: I81. Для создания диа-
граммы предсказываемых и наблюдаемых оценок выполните перечисленные ниже действия.
1. Выделите диапазон ячеек Н1:I81, а затем команду Вставка-Диаграмма.
2. В первом диалоговом окне мастера диаграмм выберите основной тип диаграммы Точечная
(ХУ (Scatter)), а затем щелкните на кнопке Далее в этом и следующем диалоговом окне.
3. В третьем диалоговом окне мастера диаграмм выберите вкладку Заголовки и введите стро-
ку Оценки по исчислению (Calculus Scores) в текстовом поле Заголовок диаграммы, строку
Предсказываемые (Predicted) в текстовом поле Ось Х (категорий) и строку Наблюдаемые (Observed)

Page 13

13
в текстовом поле Ось У (категорий).
4. Во вкладке Линии сетки снимите флажки всех параметров для удаления координатной
сетки. Затем выберите вкладку Легенда и снимите флажок Добавить легенду для удаления ле-
генды. После этого щелкните на кнопке Далее.
5. В четвертом диалоговом окне мастера диаграмм выберите переключатель отдельном и введи-
те строку Предсказываемые и наблюдаемые (Observed vs. predicted) в текстовом поле справа, затем
щелкните на кнопке Готово.
6. Измените масштаб осей Х и У так, чтобы отображались значения из диапазона от 40 до 100, а
не от 0 до 100 и от 0 до 120.
В окончательном виде диаграмма будет выглядеть так, как на рис. 2.7.
Рис.2.7 Диаграмма предсказываемых и наблюдаемых оценок
Насколько точным является это предсказание? Насколько велик разброс наблюдаемых значений
для заданного предсказываемого значения? Эта диаграмма является усовершенствованным вариантом
диаграммы переменных Оценка (Calc) и Алгебра_постyпление (Alg_Place) из матрицы точечных
диаграмм в предыдущем разделе, поскольку на рис. 2.7 представлены переменная Алгеб-
ра_постyпление (Alg_Place) и пять других предикторов.
Глядя на рис. 2.7, можно предположить, что разброс наблюдаемых значений меньше для более
высоких значений предсказываемой оценки. Если разброс ошибки меньше для студентов с высокими
предсказываемыми значениями, то это было бы нарушением третьего допущения регрессии (см. пре-
дыдущий раздел), в котором говорится о постоянной величине разброса ошибки. Обратимся к студен-
там, для которых предсказывается оценка 80. Как видите, наблюдаемые значения оценки лежат в ши-
роком диапазоне - от 65 до 95. Обратите внимание, что разброс меньше для студентов, для которых
предсказывается оценка 90, так как для них наблюдаемые значения оценки лежат в диапазоне от 80 до

Page 14

14
90. Однако все наблюдаемые значения имеют верхний предел 100 баллов, поэтому наличие такого
барьера может искусственно сузить разброс ошибок. Эта особенность более подробно рассматривается
в следующем разделе.
Диаграмма остатков и предсказываемых значений
Диаграмма остатков и предсказываемых значений дает иное представление о разбросе на рис.
2.7., поскольку остатки являются разностями между фактическими и предсказываемыми значениями
оценки.
Для создания диаграммы остатков и предсказываемых значений выполните перечисленные ни-
же действия.
1. Выберите рабочий лист Множественная регрессия (Mult Reg) с итоговыми параметрами
регрессии и диаграммой остатков.
2. Выберите диапазон В29 :Сl09, а затем команду Вставка-Диаграмма.
3. В соответствии с рекомендациями мастера диаграмм, как и при создании предыдущих диа-
грамм, создайте точечную диаграмму без линий координатной сетки и легенды. Укажите заголовок
Диаграмма остатков (Residual Plot) для диаграммы, заголовок Предсказываемые (Predicted) для
оси Х и заголовок Остатки (Residuals) для оси У. Поместите полученную диаграмму в отдельном ра-
бочем листе Остатки и предсказываемые (Residuals vs. predicted).
4. Замените текущий масштаб 0-100 новым масштабом 60-100 по оси Х. Теперь полученная
диаграмма будет выглядеть так, как на рис. 2.8.

Page 15

15
Рис. 2.8. Диаграмма остатков и предсказываемых значений
Эта диаграмма очень полезна для проверки допущений регрессии. Например, в первом допуще-
нии регрессии (см. раздел 1) говорится о правильности формы модели, т.е. при нарушении данного
предположения появится искривленная форма модели. Как видите, данная модель не имеет искрив-
ленной формы.
Если предположение о постоянстве дисперсии не удовлетворяется, то это должно быть очевид-
ным на рис. 2.8. Обратите внимание на склонность к вертикальному разбросу данных: не расширяется
ли разброс по мере увеличения предсказываемых значений? На самом деле по мере увеличения пред-
сказываемых значений разброс уменьшается, и это вызывает сомнения в справедливости регрессии,
хотя регрессия обладает устойчивостью по отношению к предположению о постоянстве дисперсии.
Для данных в диапазоне от 0 до 100 (выраженных в процентах) преобразование с использовани-
ем функций арксинуса и квадратного корня позволяет исправить проблемы, вызванные тем, что дис-
персия не является постоянной. Данное преобразование включает создание нового столбца преобразо-
ванных оценок по следующей формуле:
)
100
/
arcsin(
_
оценка
оценка
анная
преобразов
=
В Ехсеl это преобразование выполняется с помощью формулы = ASIN (КОРЕНЬ (x/100)), где х -
это значение или ссылка на ячейку с преобразуемым значением.
Применяя это преобразование для оценки и выполняя анализ регрессии для преобразованных
значений, можно обнаружить, что дисперсия остается постоянной, а регрессия остается практически
такой же. Переменные Исчисление_в_школе (Calc_HS) и Алгебра_поступление (Alg_Place) все еще
остаются значимыми, а значение R
2
- практически неизменным. Однако после выполнения данного
преобразования существенно усложняется интерпретация коэффициентов регрессии. Изменение оцен-
ки по алгебре на 1 пункт соответствует изменению на 0,012 пункта арксинуса квадратного корня оцен-
ки по математике после первого семестра, деленной на 100. Как это можно интерпретировать? В этом
контексте преобразованная регрессия полезна в основном для обоснования исходной регрессии. Если
преобразованная регрессия соблюдается и дает практически те же результаты, что и исходная, то ре-
зультаты исходной регрессии считаются достоверными.
Диаграммы остатков и предикторов
Эти диаграммы имеют большое значение, потому что кривая зависимости остатков от какого-то
отдельного предиктора может демонстрировать, что дисперсия не является постоянной. Как известно,
такие диаграммы создаются автоматически с помощью команды Регрессия модуля Пакет анали-

Page 16

16
за.
Для просмотра отдельных диаграмм выполните указанное ниже действие.
1. Выберите рабочий лист Множественная регрессия (Mult Reg) с итоговыми параметрами
регрессии.
Созданные отдельные диаграммы располагаются в ячейках JI-ZЗ2. При этом создается два типа
диаграмм: точечные диаграммы остатков и отдельных независимых переменных регрессии, а также
диаграммы наблюдаемых и предсказываемых значений оценки по математике после первого семестра
в зависимости от каждой независимой переменной регрессии, как показано на рис. 2.9. (Прокрутите
содержимое рабочего листа для просмотра остальных диаграмм.)
Эти диаграммы располагаются уступом с отображением названия каждой из них. После щелчка
на заголовке диаграмма отображается на переднем плане. Однако малый размер диаграммы не позво-
ляет просматривать детали. Для более удобной работы рекомендуется разместить каждую диаграмму
на отдельном листе диаграммы. Продемонстрируем эту операцию на примере диаграммы остатков и
переменной Алгебра-поступление (Alg_Place).
Рис. 2.9. Точечные диаграммы, созданные с помощью команды Регрессия модуля Пакет анализа
Для перемещения диаграммы в отдельный лист диаграммы выполните перечисленные ниже
действия.
1. Выделите диаграмму Алгебра при поступлении График остатков (Alg_Place Residual
Plot), которая находится в диапазоне L5: Q14.
2. Выберите команду Диаграмма-Размещение.
3. В появившемся диалоговом окне Размещение диаграммы выберите переключатель от-
дельном, введите строку График остатков Алгебра_поступление (Alg_Place Residual Plot) в тексто-
вом поле справа и щелкните на кнопке ОК. После этого диаграмма будет иметь такой вид, как на
рис.2.10.

Page 17

17
Рис. 2.10. Диаграмма остатков как функция оценки по алгебре во время поступления
Остается ли постоянным разброс остатков для разных значений оценки по алгебре во время по-
ступления? Похоже, что разброс больше для меньших значений оценки по алгебре. Вероятно, для про-
верки предположения о том, что дисперсия является постоянной, придется выполнить упомянутое ра-
нее преобразование на основе арксинуса.
Нормальные ошибки и нормальная диаграмма
Как проверить, является ли распределение ошибок нормальным? Обычно при отсутствии нор-
мального распределения ошибок экстремальные ошибки появляются на диаграмме остатков как функ-
ции предсказываемых значений. В данном примере величины остатков не превышают 25 по абсолют-
ной величине, как показано на рис. 2.8.
Насколько велики остатки, если ошибки удовлетворяют нормальному распределению? Ответ на
этот вопрос можно получить с помощью диаграммы плотности вероятностей остатков.
Для создания диаграммы плотности вероятностей нормального распределения остатков выпол-
ните перечисленные ниже действия.
1. Вернитесь к рабочему листу Множественная регрессия (Mult Reg). 2. Выберите коман-
ду меню StatPlus - Single VariabIe Charts - Normal P-plots.
3. В диалоговом окне Create Normal Probability Plot щелкните на кнопке Data
Values. Затем в диалоговом окне Input Options выберите переключатель Use Range Refer-
ences и укажите диапазон ячеек С29: СI09. Щелкните на кнопке ОК.
4. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите пере-
ключатель As а New Chart Sheet и укажите имя нового листа Диаграмма норм. расnp. остатков

Page 18

18
(Residual P-plot). Щелкните на кнопке ОК.
5. Щелкните на кнопке ОК, чтобы начать процедуру создания диаграммы вероятностей нор-
мального распределения. На рис. 2.11 показана полученная в результате диаграмма плотности вероят-
ностей нормального распределения остатков.
Рис. 2.11. Диаграмма вероятностей нормального распределения остатков
Как видите, точки диаграммы располагаются практически на одной линии без экстремальных
значений (в верхнем правом и нижнем левом углах диаграммы). Таким образом, предположение о
нормальном распределении подтверждается.
Заключительные замечания
Какие основные выводы можно сделать об итоговых оценках по исчислению по окончании пер-
вого курса после выполнения анализа регрессии, анализа остатков и создания диаграмм? Как видите,
значение R
2
= 0,37 и подогнанное значение R
2
= 0,320, поэтому регрессия только на треть объясняет
изменчивость итоговых оценок после первого курса. Этот вывод может разочаровать, так как в анализе
учитывалось несколько параметров на основе прежних оценок, наличия базовых знаний об исчислении
и т.п. Дело в том, что только оценка по алгебре и наличие курса исчисления в средней школе имеют
статистическую значимость. Эти заключения остаются в силе, хотя предположение о том, что диспер-
сия является постоянной, несколько проблематично.
Пример регрессии: дискриминация по половому признаку

Page 19

19
В приведенном здесь примере анализ регрессии используется для определения обоснованности
утверждения о дискриминации отдельной группы людей. Например, некоторые преподавательницы
колледжа могут заподозрить, что получают недостаточно высокую зарплату из-за дискриминации по
половому признаку. Для проверки этого подозрения в колледже собраны данные о тех параметрах, ко-
торые могут оказать влияние на зарплату 37 женщин и 44 мужчин. Собранные данные хранятся в фай-
ле Дискриминация.хls (Discrim.xls).
Чтобы открыть файл Дискримииация.xls (Discrim.xls), выполните перечисленные ниже дей-
ствия.
1. Найдите и откройте файл Дискриминация.хls (Oiscrim.xls), который находится в каталоге
Примеры (Student).
2. Выберите команду меню Файл-Сохранить как и сохраните рабочую книгу в файле Дис-
криминация2.xls (Oiscrim2.xls).
В табл. 2.1 перечислены переменные рабочей книги.
Таблица 2.1.
Рабочая книга Дискриминация.xls (Discrim.xls)
ИМЯ диапазона
Диапазон
Описание
Пол (Gender)
А2:А82
Пол преподавателя: F - женский (female), М - муж-
ской (male)
Степень-приема (MS_Hired)
В2: В82
Ученая степень в момент приема: 1 - наличие степени
магистра, 2 - отсутствие степени магистра
Степень (Degree)
С2:С82
Текущая степень: 1 - бакалавр, 2 - магистр, 3 - ма-
гистр + 30 часов преподавания, 4 - доктор
Возраст-приема (Age_Hired)
D2: D82
Возраст в момент приема
Стаж (Years)
Е2:Е82
Стаж работы преподавателя в колледже
Зарплата (Salary)
F2:F82
Текущая зарплата преподавателя
В данном примере зарплата рассматривается как зависимая переменная, а остальные четыре ко-
личественные переменные - как предикторы. Один из способов проверки подозрения о дискриминации
женщин - анализ регрессии данных о женщинах. На основании линии регрессии можно сравнить зар-
плату женщины и мужчины с тем же стажем работы, возрастом в момент приема, ученой степенью и
наличием степени магистра. В данном случае интерес представляют остатки, так как они выражают
разность между фактической зарплатой женщины и предсказанной зарплатой мужчины с теми же про-
чими параметрами. Здесь предполагается, что используются все относящиеся к делу предикторы, т.е.
администрация колледжа несет ответственность за предоставление полных данных о факторах влияния
на зарплату. При заключении контракта с участием профсоюза нужно тщательно взвесить все эти фак-
торы.

Page 20

20
Анализ регрессии для данных о мужчинах
Чтобы выполнить анализ регрессии только для данных о мужчинах и просмотреть остатки для
женщин, следует использовать инструменты автофильтрации программы Excel и скопировать строки с
данными о мужчинах в отдельный рабочий лист.
Для создания рабочего листа с данными о зарплате преподавателей-мужчин выполните пере-
численные ниже действия.
1. Выберите команду меню Данные=>Фильтр=>Автофильтр (Data<=> Filter<=>AutoFilter).
2. Щелкните на стрелке справа от подписи Пол (Gender) и выберите элемент М.
З. Выделите диапазон ячеек Al:F82 и щелкните на кнопке Копировать в стандартной панели
инструментов.
4. Щелкните правой кнопкой мыши на вкладке Данные о зарплате (Salary Data) и выберите
команду Добавить (Insert) в контекстном меню.
5. Выберите элемент Лист (Worksheet) во вкладке Общие (Gепегаl) диалогового окна Вставка
(Insert) и щелкните на кнопке ОК.
6. Щелкните на кнопке Вставить в стандартной панели инструментов.
7. Щелкните дважды на подписи Лист1 (Sheetl) и введите строку Данные о мужчинах (Male
Data). Данные о зарплате мужчин-преподавателей занимают диапазон Al:F45 в рабочем листе Данные
о мужчинах. Теперь можно приступать к анализу этого подмножества данных.
Использование SРLОМ-матрицы
Чтобы получить представление о характере взаимосвязей между переменными, рекомендуется
вычислить для них матрицы корреляции и создать матрицу точечных диаграмм корреляции.
Для создания SРLОМ-матрицы точечных диаграмм корреляции выполните перечисленные ниже
действия.
1. Выберите команду меню StatPlus=>Multi-vагiаbIе Charts=>Scatterplot Ma-
trix.
2. В диалоговом окне Create а Scatterplot Matrix щелкните на кнопке Data
Val-
ues. В диалоговом окне Input Options выберите переключатель Use Range References и
укажите диапазон Вl: F45. Щелкните на кнопке ОК.
3. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите пере-

Page 21

21
ключатель New Worksheet и укажите имя нового листа SPLOM для мужчин (Male SPLOM). Щелк-
ните на кнопке ОК в диалоговом окне Output Options.
4. Щелкните на кнопке ОК в диалоговом окне Create Scatterplot Matrix для создания
SРLОМ-матрицы точечных диаграмм (рис. 2.12).
Рис. 2.12. Матрица точечных диаграмм корреляций для зарплаты мужчин
Стаж работы является очень хорошим предиктором, поскольку диапазон зарплат крайне узок
для любого количества проработанных лет (хотя взаимосвязь не совсем линейна). Возраст во время
приема на работу не очень хороший предиктор, так как для каждого значения возраста разброс зарплат
слишком велик. Между двумя предикторами "возраст" и "стаж работы" нет статистически значимой
взаимосвязи. А что можно сказать о двух других предикторах? Диаграммы корреляции зарплаты и
ученой степени, а также зарплаты и наличия степени магистра во время приема на работу демонстри-
руют отсутствие взаимосвязи с величиной зарплаты. Похоже, что преподаватели с более высокой уче-
ной степенью не получают повышенную зарплату. Аналогично, преподаватели со степенью магистра
во время приема на работу также не получают более высокую зарплату. Поэтому корреляция текущей
ученой степени и наличия степени магистра во время приема на работу очень мала.
При использовании текущей ученой степени в качестве предиктора нужно иметь в виду, что эта
переменная является упорядоченной. Ее значения расположены в порядке возрастания и соответству-
ют числам 1, 2, 3 и 4. При этом расстояния между степенями имеют одинаковые значения, т.е. переход
от бакалавра к магистру оценивается единицей (от 1 до 2) и равен переходу от магистра с 30 часами к
доктору (от 3 до 4). Вместо значений 1, 2, 3 и 4 можно использовать значения 1, 2, 3 и 5, что соответст-

Page 22

22
вует большей значимости докторской степени. Несмотря на возможность произвольного присвоения
числовых значений упорядоченной переменной, обычно упорядоченные переменные редко использу-
ются в качестве предикторов регрессии. Как правило, не имеет большого значения, какие наборы ве-
личин использовать (l, 2, 3, 4 или 1, 2, 3, 5) для упорядоченной переменной. В данном примере уровень
зарплаты практически не зависит от четырех ученых степеней (см. рис. 2.12), что предполагает нуле-
вую корреляцию зарплаты и текущей ученой степени. При этом расстояние между отдельными степе-
нями не имеет значения.
Матрица корреляции
В SРLОМ-матрице показаны взаимосвязи между зарплатой и другими переменными. Для коли-
чественного выражения этой взаимосвязи попробуем создать матрицу корреляции этих переменных.
Для создания матрицы корреляции выполните перечисленные ниже действия.
1. Выберите рабочий лист Данные о мужчинах (Male Data).
2. Выберите команду StatPlus-Multivariate Analysis-Correlation Matrix.
З. В диалоговом окне Create Correlation Matrix щелкните на кнопке Data Values. В
диалоговом окне Input Options выберите переключатель Use Range References и укажите
диапазон Bl:F45, а затем щелкните на кнопке ОК.
4. Щелкните на кнопке Output, затем в диалоговом окне Output Options выберите пере-
ключатель New Worksheet и укажите имя нового листа Матрица корреляции для мужчин
(Male Corr Matrix). Щелкните на кнопке ОК в диалоговом окне Output Options. Затем в диалого-
вом окне Create Correlation Matrix щелкните на кнопке ОК, чтобы начать процедуру созда-
ния матрицы корреляции (рис. 2.13).
Рис. 2.13. Матрица корреляции для данных о мужчинах
Здесь может возникнуть вопрос: почему бы не использовать возраст преподавателя вместо воз-

Page 23

23
раста в момент приема? Дело в том, что при использовании возраста преподавателя возникает пробле-
ма коллинеарности. Коллuнеарность (colliпearity) означает, что один или несколько предикторов очень
тесно связаны друг с другом. В данном примере возраст преподавателя тесно связан со стажем работы,
так как они отчасти перекрываются: ведь преподаватели с большим стажем работы, как правило, стар-
ше. Это значит, что информация из этих двух переменных будет избыточной. Однако, анализируя рис.
2.13, можно заметить, что взаимосвязь между стажем работы и возрастом в момент приема незначи-
тельна, поскольку р-значение равно 0,681 (ячейка ЕIЗ). Использование возраста в момент приема вме-
сто возраста преподавателя позволяет применить в данном примере две практически некоррелирован-
ные переменные. Благодаря применению слабо связанных предикторов становится гораздо проще ин-
терпретировать результаты множественной регрессии.
Корреляция зарплаты демонстрирует сильную взаимосвязь со стажем работы, небольшую взаи-
мосвязь с возрастом в момент приема и слабую взаимосвязь с текущей ученой степенью. Эти выводы
согласуются с выводами, полученными после анализа SРLОМ-матрицы, которая показана на рис. 2.12.
Множественная регрессия
Что произойдет, если для анализа регрессии использовать все четыре предиктора? Для указания
множественной регрессии выполните перечисленные ниже действия.
1. Выберите рабочий лист Данные о мужчинах (Male Data).
2. Выберите команду Сервис-Анализ данных. Затем в диалоговом окне Анализ данных
выберите элемент Регрессия и щелкните на кнопке ОК. При этом в диалоговом окне Регрессия
могут находиться установленные прежде значения регрессии.
3. В текстовом поле Входной интервал Х введите диапазон Fl: F45, нажмите клавишу <Таb>
и в текстовом поле Входной интервал У введите диапазон Bl: Е45.
4. Установите флажок Метки (Labels), затем флажок Уровень надежности (Confidence
Level) и значение 95 в текстовом поле справа.
5. Выберите переключатель Новый рабочий лист (New Worksheet Ply) и введите строку
Регрессия данных о мужчинах (Male Reg) в текстовом поле справа.
6. В разделе Остатки (Residuals) установите флажки Остатки (Residuals), Стандартные
остатки (Standardized Residuals), График остатков (Residual Plots) и График подбора (Line Fit
Plots).
7. Щелкните на кнопке ОК.
На рис. 2.14 показана первая часть результатов анализа регрессии с отформатированными

Page 24

24
столбцами.
Рис. 2.14. Результаты анализа регрессии для данных о мужчинах
Интерпретация результатов анализа регрессии
Значение R
2
равно 0,732, т.е. регрессией объясняется 73,2% дисперсии значений зарплаты. Од-
нако после подгонки к количеству предикторов (т.е. четырем предикторам) значение R
2
равно 0,705,
т.е. регрессией объясняется 70,5% дисперсии значений зарплаты. Стандартная ошибка равна 3 168,434,
т.е. диапазон зарплат простирается до: ±ЗООО от предсказанной величины. F-отношение равно 26,67, а
р-значение в ячейкеFI2 равно 1,063*10
-10
; это позволяет отвергнуть гипотезу о том, что все четыре ко-
эффициента корреляции равны 0. Анализируя значения коэффициентов и их стандартных ошибок,
можно заключить, что коэффициенты корреляции переменных Степень (Degree) и Сте-
пень_приема (MS_Hired) имеют практически такие же значения, что и их стандартные ошибки. Их
значения t-статистики меньше 2, а р-значения гораздо меньше 0,05, т.е. они не имеют статистической
значимости на уровне 5%. С другой стороны, коэффициенты корреляции переменных Стаж (Years) и
Возраст-приема (Age_Hired) имеют значения, которые гораздо больше их стандартных ошибок. Их
значения t-статистики равны 9,39 и 4,49, а соответствующие р-значения статистически значимы на
уровне 0,01%.
Значение 606,1759 коэффициента корреляции для стажа работы говорит о том, что увеличение
стажа на один год сопровождается повышением годовой зарплаты на 606 долларов, если остальные
предикторы остаются неизменными. И аналогично: значение 374 коэффициента корреляции для воз-
раста во время приема означает, что преподаватель, который старше другого преподавателя на один
год, будет получать годовую зарплату на 374 доллара больше, если остальные предикторы остаются

Page 25

25
неизменными.
Анализ остатков для данных о дискриминации
Попробуем теперь проверить предположения регрессии.
Для создания диаграммы остатков и предсказанных значений зарплаты выполните перечислен-
ные ниже действия.
1. Выделите диапазон ячеек В27:С71 и выберите команду меню Вcтaвка - Диаграмма.
2. Следуя инструкциям мастера создания диаграмм, создайте диаграмму без сетки координат и
легенды. Введите строку Диаграмма остатков (мужчины) (Residual Plot) в качестве подписи диа-
граммы, строку Предсказанные значения (Predicted) в качестве подписи по оси Х и строку Ос-
татки (Residuals) в качестве подписи по оси У. Поместите диаграмму в отдельном листе диаграммы
Остатки и предсказан.(мужчины) (Residuals vs. Predicted).
3. Измените масштаб оси Х, т.е. введите масштаб 20000-45000 вместо 0-45 000. После выпол-
нения этих действий полученная диаграмма будет выглядеть так, как на рис. 2.15.
Рис. 2.15. Диаграмма остатков как функции предсказанных значений
Похоже, что в данном примере не возникает проблемы с постоянством дисперсии, так как ос-
татки не имеют большого разброса при перемещении слева направо по шкале предсказанных значений.
Однако две точки все же вызывают сомнения. Одна точка в верхней части диаграммы обозначает оста-
ток со значением 8000 (т.е. данный преподаватель получает на 8000 долларов больше, чем следует, со-
гласно данному уравнению регрессии), а другая точка в нижней части диаграммы обозначает недопла-
ту 6000 долларов по сравнению с предсказанным значением.
За исключением этих двух точек, все остальные точки образуют немного искривленный узор (с

Page 26

26
большими значениями на концах и низкими значениями в середине), который можно проверить с по-
мощью логарифмического преобразования. Дело в том, что логарифмическое преобразование делает
диаграмму плоской, но результаты регрессии меняются незначительно. Например, если логарифм зар-
платы использовать в качестве зависимой переменной вместо зарплаты, то новое значение 0,733 пара-
метра R
2
изменяется незначительно по сравнению с прежним значением 0,732. Если результаты анали-
за регрессии практически не изменяются после преобразования, то не рекомендуется изменять их, по-
скольку исходные результаты гораздо проще интерпретировать.
Диаграмма плотности вероятностей остатков
Попробуем теперь проверить предположение о нормальном распределении остатков. Для соз-
дания диаграммы плотности вероятностей остатков выполните перечисленные ниже действия.
1. Вернитесь к рабочему листу Регрессия данных о мужчинах (маlе Reg).
2. Выберите команду меню StatPlusqSingle VariabIe ChartsqNormal P-plots.
3. В диалоговом окне Create Normal Probability Plot щелкните на кнопке Data
Values. Затем в диалоговом окне Input Options выберите переключатель Use Range Refer-
ences и укажите диапазон ячеек C27:С71. щелкните на кнопке ОК.
4. . Щелкните на кнопке Oиtpиt, затем в диалоговом окне Output Options выберите пере-
ключатель Аs а New Chart Sheet и укажите имя нового листа Норм. распр. остатков (мужчины) (Ма1е
Residual P-plot). Щелкните на кнопке ОК.
5. Щелкните на кнопке ОК, чтобы начать процедуру создания диаграммы вероятностей нор-
мального распределения. На рис. 2.16 показана полученная в результате диаграмма плотности вероят-
ностей нормального распределения остатков для данных о мужчинах.

Page 27

27
Рис. 2.16. Диаграмма вероятностей нормального распределения остатков для данных о муж-
чинах
Как видите, точки диаграммы располагаются практически на одной линии без экстремальных
значений (в верхнем правом и нижнем левом углах диаграммы). Таким образом, предположение о
нормальном распределении подтверждается, хотя в верхнем правом углу располагается точка, которая
находится немного правее, чем следовало бы. Эта точка относится к преподавателю, который получает
зарплату на 8000 долларов больше, чем ожидалось, но это значение не является экстремальным. Итак,
в данном примере можно сделать вывод, что остатки удовлетворяют предположению о нормальном
распределении.
Подвергаются ли преподавательницы дискриминации при оплате труда
После анализа регрессии для данных о мужчинах продолжим исследование и применим его к
преподавателям-женщинам, чтобы выяснить, подвергаются ли они дискриминации при оплате труда?
Идея заключается в изучении разницы между фактическими и предполагаемыми значениями зарплаты
на основе модели регрессии для мужчин. Эта идея формулируется в виде следующих гипотез:
- нулевая гипотеза Н
о
: фактическая средняя зарплата женщин равна зарплате мужчин, пред-
сказанной на основе анализа регрессии;
- альтернативная гипотеза Н
а
: фактическая средняя зарплата женщин ниже зарплаты муж-
чин, предсказанной на основе анализа регрессии.
для получения статистических данных о зарплате для женщин по отношению к мужчинам по-
пробуйте создать новые столбцы с предсказанными значениями и остатками.
Для создания новых столбцов с предсказанными значениями и остатками выполните перечис-
ленные ниже действия.
1. Вернитесь к рабочему листу Данные о зарплате (Salary Data).
2. Выберите элемент ж (F) в разворачивающемся списке столбца Пол (Gender). Убедитесь в том,
что выделен диапазон Al:F38.
З. Скопируйте выделение и вставьте его в новый рабочий лист Данные о женщинах (Female
Data).
4. В рабочем листе Данные о женщинах (Female Data) выделите ячейку Gl и введите в нее
строку Предсказанная зарплата (pred Sal), нажмите клавишу <Таb>, введите в следующей ячейке
строку Остатки (Resid), а затем нажмите клавишу <Enter>.
5. Выделите диапазон G2 :НЗ8.

Page 28

28
6. В ячейке G2 введите формулу =12900,67 + 744,4821*B2 - 783,529*C2 + 373,7354*D2 +
606,1759*Е2 (уравнение регрессии для мужчин) и нажмите клавишу <Таb>.
7. В ячейке Н2 введите формулу =F2-G2, а затем нажмите клавишу <Enter>.
8. Выберите команду меню Правка - Заполнить - Вниз (Edit-Fill-Down). После выпол-
нения этих действий будут получены результаты, показанные на рис. 2.17.
Рис. 2.17. Предсказываемые зарплаты и остатки для женщин
Для проверки соответствия фактической и предсказанной зарплаты женщин создадим диаграм-
му остатков и предсказанной зарплаты. Для создания диаграммы остатков и предсказанной зарплаты
выполните перечисленные ниже действия.
1. Выделите диапазон Gl: Н38 и выберите команду меню Вставка-Диаграмма.
2. Следуя инструкциям мастера создания диаграмм, создайте диаграмму без сетки координат и
легенды. Введите строку Диаграмма остатков (женщины) (Female Residual Plot) в качестве подписи
диаграммы, строку Предсказанные значения (Predicted) в качестве подписи по оси Х и строку Остатки
(Residиals) в качестве подписи по оси У. Поместите диаграмму в отдельном листе диаграммы Остатки
и предсказ. (женщины) (Female Residuals YS. Predicted).
3. Измените масштаб оси Х, т.е. введите масштаб 20 000-40 000 вместо 0-45 000. После выпол-
нения этих действий полученная диаграмма будет выглядеть так, как на рис. 2.18.

Page 29

29
Рис. 2.18. Диаграмма остатков как функции предсказанных значений для женщин
Из 37 преподавателей-женшин только 5 получают зарплату больше, а 32 получают зарплату
меньше, чем предсказанная зарплата для мужчин. Попробуем вычислить параметры описательной ста-
тистики для остатков, чтобы определить среднее различие в зарплатах. (Учтите, что перечисленные
ниже действия будут корректно выполнены только с региональным стандартом Английский (США).
Поэтому для его установки в операционной системе Windows ХР следует выбрать команду Пуск-
Панель управления, затем в диалоговом окне Панель управления нужно выбрать элемент
Язык и региональные стандарты, после чего во вкладке Региональные параметры диало-
гового окна Язык и региональные стандарты выбрать в списке элемент Английский (США).
По окончании работы с примером следует с помощью тех же действий вернуться к текущему регио-
нальному стандарту.)
Чтобы вычислить параметры описательной статистики для зарплаты преподавателей-женщин,
выполните перечисленные ниже действия.
1. Откройте рабочий лист Данные о женщинах (Female Data).
2. Выберите команду меню StatPlus-Descriptive Statistics=>Univariate Statistics
(StаtРlus - Описательная статистика - Одномерная статистика).
3. В появившемся диалоговом окне Univariate Statistics (Одномерная статистика) ус-
тановите флажки Аll summary statistics (Итоговая статистика) и All variability
statistics (Статистика изменчивости).
4. Щелкните на кнопке Input и в появившемся диалоговом окне Input Options выберите
переключатель Use Range References, а затем укажите диапазон Нl:НЗ8. Щелкните на кнопке
ОК.

Page 30

30
Рис.2.19. таблица с параметрами описательной статистики
На основе параметров описательной статистики можно сделать вывод, что преподаватели-
женшины в среднем получают на 3063,64 доллара меньше преподавателей-мужчин с такой же квали-
фикацией (по результатам вычислений предсказанных значений на основе тех же предикторов). Наи-
большая отрицательная разница достигает значения 8 825 долларов (в ячейке В9), а наибольшая поло-
жительная разница равна2090 долларов (в ячейке Вl0).
Для более подробного анализа причин дискриминации попробуем создать диаграмму остатков
как функции предикторов. Начнем с создания диаграммы остатков как функции возраста в момент
приема на работу. (Также можно попробовать создать диаграмму остатков как функции стажа работы,
но в ней сложно обнаружить заметную тенденцию.)
Для создания диаграммы остатков как функции возраста в момент приема на работу выполните
перечисленные ниже действия.
1. Откройте рабочий лист Данные о женщинах (Female Data).
2. Выделите диапазон Dl:D38 И Нl:Н38, используя клавишу <Ctrl> для выделения несмежных
диапазонов), и выберите команду меню Вставка-Диаграмма.
3. Следуя инструкциям мастера создания диаграмм, создайте диаграмму без сетки координат и
легенды. Введите строку Диаграмма остатков и возраста в момент приема (Residuals YS. Age Hired) в
качестве подписи диаграммы, строку Возраст в момент приема (Age Hired) в качестве подписи
по оси Х и строку Остатки (Residuals) в качестве подписи по оси У. Поместите диаграмму в отдель-
ном листе Остатки и возраст (женщины) (Female Residuals vs. Age Нired).
4. Измените масштаб оси Х, т.е. введите масштаб 20-50 вместо 0-60. После выполнения этих
действий полученная диаграмма будет выглядеть так, как на рис. 2.20.

Page 31

31
Рис. 2.20. Диаграмма остатков как функции возраста в момент приема на работу для женщин
На полученной диаграмме можно легко заметить тенденцию к большей дискриминации в вы-
плате зарплаты для преподавателей-женщин более старшего возраста в момент приема на работу. По-
пробуем создать линию регрессии для этих данных.
Для создания линии регрессии на диаграмме остатков как функции возраста в момент приема на
работу для женщин выполните перечисленные ниже действия.
1. Щелкните правой кнопкой мыши на одной из точек диаграммы и выберите команду Доба-
вить линию тренда (Insert Trendline) в контекстном меню.
2. В диалоговом окне Линия тренда выберите вкладку Тип (Туре), установите флажок Ли-
нейная и щелкните на кнопке ОК. После выполнения этих действий диаграмма будет выглядеть так,
как на рис. 2.21.
Рис. 2.21. Диаграмма с добавлением тренда
На этой диаграмме показано, что дискриминация в выплате зарплаты существенно зависит от

Page 32

32
возраста в момент приема на работу. В возрасте 25 лет дискриминация практически не заметна, но
женщины старше 40 лет получают зарплату, которая в среднем меньше зарплаты мужчин на 5000 дол-
ларов. Наибольшая замеченная разница в зарплате мужчин и женщин одинаковой квалификации со-
ставляет 9000 долларов.
Выводы
Почему возраст в момент приема на работу оказывает такое влияние на уровень оплаты? Одна
из причин, возможно, заключается в том, что женщины чаще, чем мужчины, отвлекаются от работы
для воспитания детей в ущерб служебной карьере. Поэтому мужчины старшего возраста могут иметь
больший опыт работы, чем женщины, а потому получают большую зарплату. Но этот вывод нельзя
применять ко всем женщинам, а в данном примере все женщины старше 36 лет получают зарплату
меньше, чем мужчины.
Итак, мы установили, что преподаватели-женщины получают в среднем на 3000 долларов
меньше, чем преподаватели-мужчины. Однако точный размер недоплаты зависит от возраста в момент
приема на работу. Женщины старше 40 лет в среднем получают меньше 5000 долларов. Интересно от-
метить, что после подачи искового заявления суд вынес решение в пользу преподавателей-женщин, но
назначил одинаковую компенсацию для всех преподавателей-женщин, независимо от возраста.

Page 33

33
Упражнения
1 С помощью функции FРАСПОБР (FINV) вычислите критическое значение для перечисленных ни-
же F-распределений (предполагается, что р-значение равно 0,05).
1.1
Числитель степеней свободы = 1, знаменатель степеней свободы = 9.
1.2
Числитель степеней свободы = 2, знаменатель степеней свободы = 9.
1.3
Числитель степеней свободы = 3, знаменатель степеней свободы = 9.
1.4
Числитель степеней свободы = 4, знаменатель степеней свободы = 9.
1.5
Числитель степеней свободы = 5, знаменатель степеней свободы = 9.
1.6
Сохраните полученные результаты в рабочей книге Е9FРАСПОБР.xls (E9Flnv.xls).
2 С помощью функции FРАСП (FDIST) вычислите р-значение для перечисленных ниже F-
распределений (предполагается, что критическое значение равно 3,5).
2.1
Числитель степеней свободы = 1, знаменатель степеней свободы = 9.
2.2
Числитель степеней свободы = 2, знаменатель степеней свободы = 9.
2.3
Числитель степеней свободы = 3, знаменатель степеней свободы = 9.
2.4
Числитель степеней свободы = 4, знаменатель степеней свободы = 9.
2.5
Числитель степеней свободы = 5, знаменатель степеней свободы = 9.
2.6
Сохраните полученные результаты в рабочей книге Е9FРАСП.xls (E9FDIst.xls).
3 Какие из перечисленных ниже моделей можно охарактеризовать с помощью линейной регрессии?
Обоснуйте свой ответ.
3.1
ε
β
β
β
+
+
+
=
2
2
1
1
0
x
x
y
3.2
ε
β
β
+
+
=
x
x
y
1
0
3.3
ε
β
β
β
+
+
+
=
x
x
y
cos
sin
2
1
0
4 Что такое коллинеарность?
5 В рабочей книге Компьютеры_Опрос.xls (PCSurv. xls) хранятся данные опроса о 35 моделях
персональных компьютеров, опубликованные в журнале РС Magaziпe за 9 февраля 1993 года. Редакция
журнала послала 17 тыс. анкет случайно выбранным подписчикам и собрала данные на основе 8 176
ответов. Данные в рабочей книге содержат пять столбцов: в столбце Компания (Соmраny ) приво-
дится имя компании, в столбце Надежность (Reliability) - рейтинг надежности компании, в столбце
Ремонт (Repair) - рейтинг ремонта, в столбце Поддержка (Support) – рейтинг технической поддерж-
ки, в столбце Желание_купить_снова (Виу _Again) оценка желания еще раз сделать покупку в
данной компании.

Page 34

34
5.1
Откройте рабочую книгу и создайте матрицу корреляции и соответствующую матрицу
диаграмм корреляции для четырех числовых переменных.
5.2
Какие компании имеют наибольшие и наименьшие значения переменной Жела-
ние_купить_снова (Вuy _Again)?
5.3
Выполните анализ регрессии переменной Желание_купить_снова (Buy _Again) по
отношению к другим трем числовым переменным. Создайте диаграмму остатков для проверки
предположений. Насколько успешно можно предсказать желание еще раз сделать покупку в дан-
ной компании? Удовлетворяются ли предположения о регрессии?
5.4
Определите знак корреляции между переменными Желание_купить_снова
(Buy_Again) и Ремонт (Repair). Что можно сказать о характере этой взаимосвязи? Связаны ли
более высокие значения переменной Желание_купить_снова (Виу _Again) с более высокими
значениями переменной Ремонт (Repair)? Обратите внимание на знак коэффициента перед пе-
ременной Ремонт (Repair). Что он значит для взаимосвязи между переменными Жела-
ние_купить_снова (Buy_Again) и Ремонт (Repair)? Сравните выводы после анализа регрес-
сии и выводы после корреляции этих переменных. Чем можно объяснить полученные результа-
ты?
5.5
. Подведите итоги и сохраните полученные результаты в рабочей книге
Е9КомпьютерыОпрос.xls (E9PCSurv.xls).
6 Откройте рабочую книгу Мучные.хls (wheat.xls).
6.1
Создайте матрицу корреляции для переменных Калории (Calories),
Углеводы (Carbo), Белки (protein) и Жиры (Fat), а затем соответствую-
щую матрицу диаграмм корреляции для всех переменных.
6.2
Выполните анализ регрессии переменной Калории (Calories) по от-
ношению к трем другим переменным и проанализируйте остатки. Оправдыва-
ются ли предположения о регрессии? Известно, что грамм углеводов со-
держит 4 калории, грамм белков - 4 калории, а грамм жиров 9 калорий.
Сравните эти данные с коэффициентами регрессии.
6.3
Объясните, почему коэффициент для жиров с меньшей точностью со-
ответствует значению 9 (т.е. характеризуется большей стандартной ошиб-
кой)? (Подсказка. Проверьте исходные данные и обратите внимание, что
содержание жиров указано с меньшей точностью.)
6.4
Создайте диаграмму остатков и предсказываемых значений. Найдите выбросы (если
таковые имеются) и отметьте подписями точки с наиболее экстремальными значениями. Пра-

Page 35

35
вильно ли слагаются калории, т.е. получается ли при умножении содержания углеводов на 4, со-
держания белков на 4 и содержания жиров на 9 величина, указанная на упаковке? Обратите вни-
мание, что для другой точки с таким же содержанием углеводов, белков и жиров содержание ка-
лорий в 10 раз больше. Как это объяснить? Может, одна из компаний случайно приуменьшила
содержание калорий?
6.5
Подведите итоги и сохраните полученные результаты в рабочей книге Е9Мучные.
xls (E9Wheat. xls).
7 Рабочая книга Мучные_Дан.хls (WheatDan.xls) является несколько видоизмененным вариантом
рабочей книги Мучные.xls (Wheat.xls), в которой добавлены данные об изделии Apple Danish компа-
нии McDonald's. Это изделие имеет большое содержание жиров, в отличие от других продуктов в фай-
ле Мучные.хls (Wheat.xls). Поскольку изделия в файле Мучные.хls (Wheat.xls) не имеют большого
содержания жиров, то их вклад в калорийность продукта трудно вычислить.
7.1
Повторите анализ регрессии из упражнения 2 для файла Мучные
Дан.хls (WheatDan.xls) и обратите внимание на точность коэффициента
жиров. Используйте известное значение 9 для сравнения и стандартную
ошибку регрессии, которая приводится в результатах анализа.
7.2
Сохраните
полученные результаты в рабочей книге Е9МучныеДан.xls
(E9WheatDan. xls).
8 В рабочей книге Бейсбол26.хls (Base26 .xls) содержатся данные о ключевых бейсбольных мат-
чах, сыгранных 29 июля 1992 года, которые опубликованы на следующей день в газете Pantagraph
(Блумингтон, Иллинойс). В ней перечислены следующие данные о 26 основных командах лиги: Очки
(Runs), Синглы (Singles), Даблы (Doubles), Триплы (Triples), Перелеты (Ноmе Runs) и Пробежки
(Walk_HBP).
8.1
Выполните анализ 'регрессии переменной Очки (Runs) И других переменных и сравните
с результатами Рознера и Вудса [16], которые упоминаются в начале главы.
Можно ли объяснить замеченную разницу стандартной ошибкой определения
коэффициентов?
8.2
Можно ли с помощью коэффициентов Рознера-Вудса упростить опреде-
ление наибольшего и наименьшего значения?
8.3
Как могут измениться результаты при получении данных для не-
скольких других дней?
8.4
Сохраните
полученные результаты в рабочей книге Е9Бейсбол26.xls
(E9Base26.xls).

Page 36

36
9 В рабочей книге ХондаСибик.xls (HondaCiv.xls) включены данные о ценах на подержанные ав-
томобили "Honda Civic", опубликованные в объявлениях в газете Chronicle (Сан-Франциско, США) за
25 ноября 1990 года: Цена (Price), Возраст (Age) и Пробег (Miles). Обратите внимание, что здесь воз-
никает проблема отсутствующих данных, поскольку данные о пробеге включены не во все объявления.
9.1
Чтобы избежать проблемы отсутствующих данных, скопируйте строки со всеми данны-
ми в новый рабочий лист. Выполните в нем анализ корреляции и создайте диаграммы корреляции
для переменных Цена (Price), Возраст (Age) и Пробег (Miles). (Для этого
придется скопировать столбец с данными о возрасте автомобиля рядом со
столбцом о пробеге.)
9.2
Выполните анализ регрессии переменной Цена (Price) по отношению
к переменным Возраст (Age) и Пробег (Miles). Можно ли на основании
анализа остатков сказать, что предположения о регрессии нарушаются?
9.3
Обратите внимание: один автомобиль намного старше других, и его большой ос-
таток может указывать на то, что это выброс. Выполните новый анализ регрессии без данного на-
блюдения и сравните результаты. Какая регрессия лучше? Объясните смысл наклона регрессии
на основе изменения цены при увеличении возраста автомобиля на один год.
9.4
Сравните предыдущие результаты с результатами регрессии по отношению
к переменной Пробег (Miles). Влияет ли пробег на стоимость подержанного автомобиля? Обра-
тите внимание, что пробег автомобиля слабо связан с его возрастом. Возможно, это объясняется
тем, что владельцы автомобилей с большим пробегом не стремятся подчеркивать этот факт? Как
изменились бы результаты регрессии, если бы в объявлениях публиковались только данные о
малом пробеге?
9.5
Подведите
итоги
и сохраните полученные результаты в рабочей книге
Е9ХондаСивик.xls (E9HondaCiv.xls).
10 Еще раз откройте рабочую книгу ХондаСивик.хls (HondaCiv.xls).
10.1
Повторите анализ регрессии для модели из п.2 упражнения 9, используя логарифмиче-
ские значения цены вместо исходных значений.
10.2
Улучшится ли после этого множественная корреляция? Исчез ли после этого наиболее
крупный остаток, чтобы можно было не выполнять анализ регрессии с исключением этого значе-
ния? Верно ли, что переменная Пробег (Miles) не имеет статистической значимости в данной рег-
рессии?
10.3
При использовании логарифма цены в качестве зависимой переменной результаты ана-
лиза регрессии можно интерпретировать на основании падения процентного значения цены при

Page 37

37
увеличении возраста автомобиля на один год вместо падения абсолютного значения цены при
увеличении возраста автомобиля на один год. Имеет ли больший смысл формулировка "падение
цены на 16,5% при увеличении возраста автомобиля на один год" по сравнению с формулировкой
"падение цены на721 доллар при увеличении возраста автомобиля на один год"? Позволяет ли
новая формулировка определить, насколько быстро падает цена более старого автомобиля по
сравнению с более новым?
10.4
Сохраните рабочую книгу в рабочем файле Е9ХондаСивик2.xls (Е9Ноndaciv.xls).
11 Откройте рабочую книгу Машины.хls (Cars.xls). В ней находятся собранные Донохо и Рамосом
[8] данные о 392 моделях автомобилей по восьми параметрам: пробег на галлон топлива ПГТ (MPG),
количество цилиндров Цилиндры (Cylinders), рабочий объем цилиндров двигателя Объем
(Engine_Disp), мощность двигателя Мощность (Horsepower), масса автомобиля в фунтах Вес (Weight),
время ускорения (в секундах) от 0 до 60 миль в час Ускорение (Accelerate), год выпуска модели Год
(Year) и место производства (Америка, Европа или Япония) автомобиля Производитель (Origin).
11.1
Создайте матрицы корреляции (исключая коэффициент корреляции Спирмана) и матри-
цу диаграмм корреляции для всех семи количественных переменных.
11.2
Выполните анализ регрессии для переменной ПГТ (MPG) в зависимости от переменных
Цилиндры (Cylinders), Объем (Engine_Disp), Мощность (Horsepower), Вес (Weight), Ускорение
(Accelerate), Год (Year) И Происхождение (Origin).
11.3
Обратите внимание, что коэффициенты регрессии для переменных Объем (Engine_Disp)
И Мощность (Horsepower) не являются статистически значимыми. Сравните полученные резуль-
таты с р-значениями дляэтих переменных в матрице корреляции. Чем объясняется отсутствие
значимости? (Подсказка. Обратите внимание на корреляцию между переменными Объем
(Engine_Disp), Мощность (Horsepower) и Вес (Weight).)
11.4
Создайте диаграмму остатков и предсказываемых значений. Можно ли на основании
этой диаграммы сказать, что предположения о регрессии нарушаются? Почему?
11.5
Создайте новую переменную Лог_ПГТ (Log_MPG), которая содержит логарифмические
значения переменной ПГТ (MPG). Выполните анализ регрессии с новой зависимой переменной
вместо переменной ПГТ (MPG). Сравните диаграмму остатков и предсказываемых значений с
прежней диаграммой.
11.6
Сохраните полученные результаты в файле Е9Машины.xls (E9Cars.xls).
12 Повторно откройте рабочую книгу Машины.xls (Cars.xls).
12.1
Создайте новую переменную Лог_ПГТ (Log_MPG), которая содержит логарифмические
значения переменной ПГТ (MPG), как в предыдущем примере, и выполните для нее анализ рег-

Page 38

38
рессии в зависимости от остальных числовых переменных. Попробуйте сократить количество пе-
ременных модели с помощью приведенного ниже алгоритма.
12.2
Выполните анализ регрессии.
12.3
Если любые коэффициенты регрессии не имеют статистической значимости, то еще раз
выполните анализ регрессии без наименее значимой переменной.
12.4
Продолжайте выполнять анализ регрессии, удаляя следующие наименее значимые пере-
менные.
12.5
Для выполнения анализа регрессии без каких-то переменных придется удалять их столб-
цы, так как команда Регрессия выполняется только для смежных столбцов.
12.6
Сравните значение R2 для полной И сокращенной модели?
12.7
Подведите итоги и сохраните полученные результаты в рабочей книге Е9Маmины2.xls
(E9Cars2 .xls).
13 Повторно откройте рабочую книгу Машины.xls (Cars. xls).
13.1
Для созданной в предыдущем при мере переменной ПГТ (MPG) выполните анализ рег-
рессии в зависимости от переменных Цилиндры (Cylinders), Объем (Engine_Disp), Мощность
(Horsepower), Масса (Weight), Ускорение (Accelerate) и Год (Year) только для американских ав-
томобилей. (Скопируйте данные в новый рабочий лист с помощью инструмента Автофильтр).
13.2
Проанализируйте остатки моделей. Удовлетворяют ли они сделанным предположениям
регрессии?
13.3
В рабочем листе Данные о машинах (Car Data) создайте новый столбец для предска-
занных значений переменной Лог_ПГТ (Log_MPG) для всех моделей с помощью уравнения рег-
рессии, созданной для американских автомобилей. Создайте еще один столбец для остатков.
13.4
Создайте диаграмму остатков и предсказываемых значений для всех автомобилей, а за-
тем разбейте ее на категории в соответствии с происхождением автомобилей. Измените масштаб
оси Х так, чтобы диапазон отображаемых значений простирался от 1 до 1,6.
13.5
Вычислите параметры описательной статистики (включая итоговые значения, диспер-
сию, 95%-ный доверительный интервал t-распределения) для остатков с разбивкой на категории в
соответствии с происхождением автомобилей.
13.6
Подведите итоги, ответив на вопрос, характеризуются ли японские и европейские авто-
мобили разным пробегом из расчета на галлон топлива после коррекции других факторов.
13.7
Сохраните полученные результаты в рабочей книге Е9Машины3.xls (E9Cars3.xls).
14 Откройте рабочую книгу Температура.хls (Temp.xls), В которой содержатся средние значения
температуры за январь для 56 городов США вместе
с широтой и долготой городов.

Page 39

39
14.1
Создайте лист диаграммы широты и долготы. Измените масштаб горизонтальной и вер-
тикальной осей, задавая диапазон от 600 до 1200 долготы и от 200 до 500 широты. Измените по-
рядок расположения значений по оси Х так, чтобы значения располагались от 1200 долготы слева
до 600 долготы справа. Включите в диаграмму подписи с указанием температуры в данном горо-
де.
14.2
Создайте модель регрессии, которая связывает среднюю температуру с долготой и широ-
той.
14.3
Проверьте результаты регрессии. Верно ли, что оба предиктора статистически значимы
на уровне 5%? Чему равно значение R2? Насколько изменчивость температуры объясняется из-
менениями широты и долготы?
14.4
Отформатируйте параметры регрессии, полученные с помощью инструментов модуля
Пакет анализа для отображения остатков в виде целочисленных значений. Скопируйте диаграмму
из пункта А в новый лист диаграммы и удалите подписи с указанием температуры. Вместо них
разместите подписи с указанием остатков.
14.5
Объясните полученные результаты. Где группируются отрицательные и положительные
значения?
14.6
Подведите итоги и обсудите недостатки использования линейной модели в данном слу-
чае? Сохраните полученные результаты в файле Е9Температура.xls (Е9тетр. xls).
15 Откройте рабочую книгу Дома.xls (HomeData.xls) с информацией о ценах на дома в Альбукерке,
Нью-Мексико.
15.1
Выполните анализ регрессии цен в зависимости от площади, возраста и количества
удобств.
15.2
Создайте диаграмму остатков и предсказываемых значений. Заметно ли на этой диа-
грамме какое-либо нарушение предположений о регрессии?
15.3
Повторно выполните анализ регрессии для логарифмических значений цены в зависимо-
сти от площади, возраста и количества удобств. Создайте диаграмму остатков и предсказываемых
значений. Позволяет ли логарифмическое преобразование исправить проблемы, замеченные при
выполнении предыдущего пункта?
15.4
На диаграмме имеется выброс. Объясните его происхождение при условии, что модель
верна.
15.5
Сохраните полученные результаты в файле Е9Дома.xls (E9HomeData.xls).
16 Откройте рабочую книгу БезработицаПроизв.хls (UnEmp.xls) с данными об уровне безрабо-
тицы в США в столбце Безработица (Unemployment), индексе промышленного производства в

Page 40

40
столбце Пром_Производство (FRB_Index) И годе в диапазоне от 1950 до 1959 года в столбце Год
(Year_of_Decade). Переменная Безработица (Unernployment) является зависимой, а переменные
Пром_Производство и Год (Year_of_Decade) независимы.
16.1
Создайте лист диаграммы уровня безработицы и индекса промышленного производства.
Добавьте в диаграмму линию регрессии. Верно ли, что уровень безработицы возрастает по мере
роста производства?
16.2
С помощью инструмента Регрессия модуля Пакет анализа выполните линейную регрес-
сию уровня безработицы и индекса промышленного производства. Найдите уравнение регрессии.
Чему равно значение R
2
? Объясняет ли регрессия изменчивость уровня безработицы в 1950-х го-
дах?
16.3
Повторно выполните регрессию, включая в уравнение регрессии переменную Год (Year).
Насколько изменилось значение R
2
? Как изменилось уравнение регрессии?
16.4
Сравните коэффициент перед переменной Пром_Производство (FRB_Index) в первом и
втором уравнении регрессии. Насколько они отличаются? Изменяется ли интерпретация влияния
производства на уровень безработицы при переходе от одного уравнения регрессии к другому?
16.5
Вычислите корреляцию между переменными Пром_Производство (FRB_Index) и Год
(Year). Насколько значимой является эта корреляция?
16.6
Сохраните
полученные
результаты
в
файле
Е9безработицаПроизв.xls
(E9UnEmp.xls).

Информация о работе Множественная регрессия