Статистическая обработка данных

Автор работы: Пользователь скрыл имя, 31 Мая 2013 в 12:29, контрольная работа

Краткое описание

Имеются данные выборки о работе 30 предприятий (стоимость ОПФ и выпуск продукции). Рассматриваются способы построения вариационного ряда, группировки, оценка корреляции факторного и результативного признаков.
Группировка 30 предприятий по стоимости основных фондов с разбивкой на пять групп с равными интервалами показала, что изучаемая совокупность не имеет нормальной формы распределения.
Был построен ряд распределения, найдены его числовые характеристики, приведены графики. Рассчитан коэффициент вариации, равный 30%, что характеризует совокупность как однородную.

Содержание

Проверить первичную информацию по факторному признаку (средняя стоимость основных фондов) на однородность и нормальность распределения. Исключить резко выделяющиеся единицы.
Постройте статистический ряд распределения организаций по факторному признаку. Число групп определить по формуле Стерджесса.
Построить графики полученного ряда распределения (гистограмму, кумуляту).
Рассчитайте характеристики ряда распределения: среднюю арифметическую, среднее квадратическое отклонение, коэффициент вариации, определить значения моды и медианы.
Построить график кривой Лоренца. Сделать выводы о степени концентрации единиц по изучаемому признаку.
Полагая, что данные представляют собой 10% простую случайную выборку, с вероятностью 0,954 определить доверительные интервалы, в которых будет находиться средняя величина факторного признака в генеральной совокупности.
Проанализировать зависимость результативного признака от факторного. Анализ выполнить в следующей последовательности:
установить факт наличия корреляционной зависимости и ее направление с использованием групповой корреляционной таблицы, дать графическое изображение эмпирической линии связи;
проверить правило сложения дисперсий. Сформулировать вывод о степени влияния факторного признака на величину результативного с помощью эмпирического корреляционного отношения;
измерить степень тесноты связи с помощью линейного коэффициента корреляции. Проверить возможность использования линейной функции в качестве формы уравнения;
рассчитать параметры уравнения парной зависимости, оценить возможность ее практического применения с использованием средней квадратической ошибки. Дать оценку результатов исследования взаимосвязи в целом.

Вложенные файлы: 1 файл

СТАТИСТИКА.doc

— 596.00 Кб (Скачать файл)

Вариант 1

По исходным данным табл.1:

 

  1. Проверить первичную информацию по факторному признаку (средняя стоимость основных фондов) на однородность и нормальность распределения. Исключить резко выделяющиеся единицы.
  2. Постройте статистический ряд распределения организаций по факторному признаку. Число групп определить по формуле Стерджесса.
  3. Построить графики полученного ряда распределения (гистограмму, кумуляту).
  4. Рассчитайте характеристики ряда распределения: среднюю арифметическую, среднее квадратическое отклонение, коэффициент вариации, определить значения моды и медианы.
  5. Построить график кривой Лоренца. Сделать выводы о степени концентрации единиц по изучаемому признаку.
  6. Полагая, что данные представляют собой 10% простую случайную выборку, с вероятностью 0,954 определить доверительные интервалы, в которых будет находиться средняя величина факторного признака в генеральной совокупности.
  7. Проанализировать зависимость результативного признака от факторного. Анализ выполнить в следующей последовательности:
  • установить факт наличия корреляционной зависимости и ее направление с использованием групповой корреляционной таблицы, дать графическое изображение эмпирической линии связи;
  • проверить правило сложения дисперсий. Сформулировать вывод о степени влияния факторного признака на величину результативного с помощью эмпирического корреляционного отношения;
  • измерить степень тесноты связи с помощью линейного коэффициента корреляции. Проверить возможность использования линейной функции в качестве формы уравнения;
  • рассчитать параметры уравнения парной зависимости, оценить возможность ее практического применения с использованием средней квадратической ошибки. Дать оценку результатов исследования взаимосвязи в целом.

 

 

 

 

 

 

 

 

 

Таблица 1

Статистическая информация о результатах

производственной деятельности организаций

№ предпри-ятия

Среднегодовая стоимость  основных  фондов, млн.руб.

Объем продукции за год, млн.руб.

№ предпри-ятия

Среднегодовая стоимость  основных  фондов, млн.руб.

Объем продукции за год, млн.руб.

1

2

3

4

5

6

1

108

336

16

345

1509

2

174

660

17

234

939

3

234

930

18

150

540

4

114

363

19

297

1431

5

240

1068

20

186

693

6

330

1464

21

249

1083

7

126

426

22

147

525

8

282

1161

23

270

1194

9

138

450

24

174

600

10

198

771

25

111

374

11

315

1404

26

216

849

12

210

846

27

129

420

13

285

1200

28

195

765

14

165

600

29

300

1450

15

222

906

30

210

897


 

Для проверки первичной информации на однородность, построим точечную диаграмму  зависимости Y(X), т.е. зависимости объема продукции от стоимости ОПФ (рис.1).

 

Рисунок 1 Зависимость Y(X)

 

Как видим, совокупность не имеет «выпадающих» точек, поэтому может использоваться для выполнения задания.

 

Чтобы разбить предприятия на группы, определим сначала их количество по формуле Стерджесса:

n = 3,322*lgN, где

N – число единиц изучаемой совокупности, N = 30.

n = 3,322*lg30 = 3,322*1,477 = 4,9

Примем n = 5. Найдем величину интервала по формуле:

                      h = (СОФmax - СОФmin)/5  , где

 СОФmax , СОФmin - максимальное и минимальное значения стоимости основных фондов:

 

                     h = (345 – 108)/5 = 47,4 (млн.руб.)

Примем величину интервала, равной 48 млн.руб. Получим следующие размеры интервальных групп:

1 группа: 108 - 156 млн.руб.

2 группа: 156 - 204 млн.руб.

3 группа: 204 – 252 млн.руб.

4 группа: 252 - 300 млн.руб.

5 группа: более 300 млн.руб.

 

Построим ряд распределения  предприятий по интервалам (табл.2).

 

Таблица 2 

Группировка предприятий по стоимости основных фондов

№№ групп

Интервалы, млн.руб.

Середины

интервалов, млн.руб.

Число предприятий в  группе

Накопленная частота

I

108-156

132

8

8

II

156-204

180

6

14

III

204-252

228

8

22

IV

252-300

276

5

27

V

более 300

324

3

30

Всего

-

-

30

 

 

Полученный ряд  распределения показывает, что две группы предприятий (по 8 из 30) имеют значение стоимости основных фондов в интервалах 108-156 и 204-252 млн.руб., а самая малочисленная группа              ( 3 из 30) имеет стоимость основных фондов более 300 млн.руб.

Построим графики  полученного ряда распределения: гистограмму и кумуляту (рис.2, 3).

 

Рисунок 2 Гистограмма

 


Рисунок 3 Кумулята ряда распределения

 

Гистограмма строится для интервальных вариационных рядов, для ее построения по оси абсцисс откладывают варианты, а по оси ординат – частоты, затем на отрезках, соответствующих интервалам строят прямоугольники. По данной гистограмме видно, что форма распределения предприятий в изучаемой совокупности отличается от вида нормального распределения (велико значение количества предприятий в первой группе).

Кумулята строится по накопленным частотам (последняя графа табл.2). Для интервального ряда она начинается с точки, абсцисса которой равна началу первого интервала, а ордината – нулю. Абсциссы других точек соответствуют концам интервалов, а ординаты – накопленным частотам.

Мода – это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте) – у нас два таких интервала – 1 и 3, возьмем 3 интервал 204-252 млн.руб. и определим значение модальной величины признака по формуле:

где x0 – нижняя граница модального интервала (модальным называется интервал, имеющий наибольшую частоту), равна 204 ;

i – величина модального интервала, равна 48;

fMo – частота модального интервала, равна 8;

fMo-1 – частота интервала, предшествующего модальному, равна 6;

fMo+1 – частота интервала, следующего за модальным, равна 5.

(млн.руб.)

 

Обычно значение моды показывает, что большинство предприятий имеет такую величину  основных фондов, но так как в данном случае имеем два одинаковых по частоте интервала (1 и 3), то полученное значение просто является одним из средних показателей.

Медиана — это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана (у нас это интервал 205-252 млн.руб.), а затем — значение медианы по формуле:

 

где x0 – нижняя граница медианного интервала (медианным называется первый интервал, накопленная частота которого превышает половину общей суммы частот – у нас это третий интервал), равна 204;

i – величина медианного интервала, равна 48;

SMe-1 – накопленная частота интервала, предшествующего медианному, равна 14;

fMe – частота медианного интервала, равна 8.

(млн.руб.)

Эта величина делит ряд на две  равные части по числу предприятий.

Медиану можно найти и по графику  кумуляты, если опустить перпендикуляр из точки пересечения кривой с ординатой у = 15 (половина совокупности), видим, что медиана равна примерно 210 млн.руб.

2. Числовыми характеристиками ряда  распределения являются: средняя  арифметическая (взвешенная), дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Среднюю арифметическую найдем по формуле:

xi, fi – соответственно варианты и частоты признаков.

Дисперсию найдем по формуле:

Среднее квадратическое отклонение равно корню квадратному из дисперсии.

Коэффициент вариации равен:

Для удобства вычислений составим расчетную  таблицу (табл.3).

 

Таблица 3

Расчетная таблица для определения  параметров

ряда распределения предприятий по объему выпуска продукции

Интервалы, млн.руб.

Середины

интервалов, млн.руб.

Число предприятий в  группе, f

x*f

(x – хср)

(x-x)2

(x-x)2*f

108-156

132

8

1056

-78,4

6146,6

49172,5

156-204

180

6

1080

-30,4

924,2

5545,0

204-252

228

8

1824

17,6

309,8

2478,1

252-300

276

5

1380

65,6

4303,4

21516,8

более 300

324

3

972

113,6

12905,0

38714,9

Итого:

 

30

6312

   

117427,2


 

Средняя арифметическая равна:

Дисперсия равна:

 

Среднее квадратическое отклонение равно:

(млн.руб.)

 

Коэффициент вариации равен:

 

Этот показатель используют для  сравнения колеблемости одного и  того же признака в нескольких совокупностях  с разной средней арифметической, а также как характеристику однородности данной совокупности, которая считается однородной, если коэффициент вариации не превышает 33%.

 

Выводы:

 Полученное значение средней  арифметической показывает, что  среди 30 предприятий данной отрасли промышленности средняя величина производственных фондов составляет 210,4 млн.руб. Среднее квадратическое отклонение составляет 62,6 млн.руб., т.е. большинство предприятий имеют объем выпуска продукции в пределах от 148  до 273 млн.руб. Коэффициент вариации равен 29,7%, что говорит об однородности изучаемой совокупности.

 

Для построения кривой Лоренца, характеризующую  степень концентрации предприятий по стоимости основных фондов, рассчитаем суммарную стоимость ОФ по группам (в % от общей суммы ОФ по всей совокупности) и количество предприятий в группах (в % от общего размера совокупности), данные представим в виде таблицы (табл.4).

Таблица 4

Данные для построения кривой Лоренца

Группа

Сумма ОФ, млн.руб.

Сумма ОФ, %

Кол-во предпр., ед.

Кол-во предпр., %

1

1023

16,1

8

26,7

2

1092

17,2

6

20,0

3

1815

28,6

8

26,7

4

1434

22,6

5

16,7

5

990

15,6

3

10,0


 

По оси абсцисс будем откладывать % предприятий, по оси ординат % суммы  ОФ – оба показателя нарастающим  итогом (рис.5).

 


Рисунок 5 Кривая Лоренца

 

Соединив начало координат и  последнюю точку кривой прямой линией, т.н. линией равенства, (обозначена пунктиром), можно выяснить характер распределения стоимости ОФ в изучаемой совокупности. Отношение площади полученного сегмента к площади треугольника (пунктирного) называется коэффициентом Джинни. Чем меньше этот коэффициент, тем меньше неравномерность распределения. Видно, что величина коэффициента Джинни значительно меньше 1,0, поэтому можно сделать вывод о небольшом различии в групповых суммах ОФ.

 

Считая выборку 10%, простой, случайной, определим с вероятностью 0,954 доверительные интервалы, в которых будет находиться средняя величина факторного признака (стоимости ОФ) для генеральной совокупности.

Для случайного бесповторного отбора расчетная формула ошибки выборки для выборочной средней имеют вид:

 

 

где  S2 – выборочная дисперсия;

        n – объем выборки;

        N – объем генеральной совокупности;

Предельные  ошибки выборки, по которым находится  доверительный интервал, вычисляют  по формулам:

t – коэффициент доверия, равный аргументу функции Лапласа для заданной вероятности (для g = 0,954 t = 2,0).

Информация о работе Статистическая обработка данных