Задачи по статистике

Автор работы: Пользователь скрыл имя, 16 Января 2011 в 03:09, задача

Краткое описание

Решение 4 задач.

Вложенные файлы: 1 файл

ДЗ Мое Лазарева.doc

— 1.60 Мб (Скачать файл)
 

Решение:

     Создали новый документ. Установили число  переменных – 4, а число регистров равное 25.

     

     В первый и третий столбцы ввели  объем работ, а во второй — накладные  расходы. В четвертый столбец  введем долю накладных расходов в  объеме производственных работ— определяется путем деления столбца 2 на столбец 3.

     Первый  столбец Объем, второй — Расходы, третий — Объем1, четвертый —Доля.

     Далее ввели названия следующих переменных, используя кнопку >>. В поле Long name переменных Доля ввели функции соответственно =Объем/Расходы.  

     Определили  минимальное и максимальное значение объема работ по всем предприятиям.

     Это мы делали в  задании 1 (используя  опцию Descriptive Statistics). Получили: mах = 21, min = 5. 

     Найдем R размах выборки:R = 21-5 = 16. Длина интервала группировки , где k — число интервалов, k = 4.

     Определим следующие четыре  интервала группировки:   [5,9);   [9,13); [13,17); [17,21].

     Произвели группировку переменной Объем 1 для  этого из меню выбрали Данные®Перекод…

     В появившемся окне задали границы  интервалов следующими командами:

1) V3 > = 5 and V3 < 9

2)V3>=9 andV3<13 

3)V3> = 13 andV3<17

4) V3>= 17 and V3 < = 21, где V3 - третий столбец (Объем  1), ОК. 

     В третьем столбце вместо введенных  нами данных появились номера групп 1, 2, 3, 4, в которые попали предприятия.

     Теперь  предприятия упорядочим по третьему столбцу. Вызвали модуль Data Management (Управление данными), в подпункте Analysis (Анализ) главной строки выбрали функцию Sort (Сортировка). После выполнения сортировки по трем столбцам в порядке возрастания (Ascen) предприятия будут упорядочены по четырем группам. 

     Для определения необходимых данных по группам предприятий вернулись  в модуль Basic Stat/Tables и в меню стартовой панели модуля выбрали опцию Breakdown and one-way ANOVA (разбиение и однофакторный дисперсионный анализ). 
 

     В качестве группирующей переменной (grouping) выбрали Var3 (Объемы 1), а в качестве зависимых переменных (dependent): Varl, Var2, Var4. 

     В окне результатов указали необходимые  статистики для групп предприятий: Valid N (число наблюдений в группе), Sums (суммы показателей по группам). 
 

     В полученной таблице содержатся все  необходимые результаты по группам предприятий для переменных Объем, Расходы, Доля.   

 

     

Задание 5а.

Задача 7. На экзамене студент отвечает только на один вопрос по одной из трех частей курса. Анализ вопросов, заданных 60 студентам, показал, что 23 студента получили вопросы из первой, 15 — из второй и 22 — из третьей части курса. Можно ли считать, что студент, идущий на экзамен с равной вероятностью получит вопрос по любой из трех частей курса? Принять α = 0,10. 

Часть курса 1 2 3
Частота появления 23 15 22
 
 
 

Решение.

     Решим задачу в программе STATISTICA, с помощью  модуля Nonpametric/Observed versus expectedX.

     

     Вычисленный уровень значимости р = Р[χ2(2) > 1,9] =0,386742, где (2)=4,6052, что больше, чем заданный уровень значимости α= 0,10, следовательно, гипотеза о равной вероятности появления вопроса принимается. 

     Задание 5б.

    Задача 7. Компания хочет установить расценки на рекламные объявления на стендах в зависимости от их месторасположения. Определим «популярность» стендов как количество людей, которые рассматривают щит в течение пятиминутного интервала. В таблице указано количество людей, останавливающихся у щитов в течение нескольких пятиминутных интервалов: 

Рекламный щит 1 30 45 26 44 18 38 42 29  
Рекламный щит 2 29 38 36 21 36 18 17 30 32
Рекламный щит 3 32 44 40 43 24 28 18    

        Одинаковы ли «популярности» стендов? Принять  α= 0,05. 

        Решение:

Вводим данные в таблицу:

 

Далее Анализ®Непараметрический®Сравнение нескольких непараметрических групп.

     В таблице результатов показано число  наблюдений в каждой экспериментальной  группе, которые лежат ниже (или  равны) общей медианы и число  наблюдений, лежащих выше общей медианы. Снова, наибольшее число , которое выше общей медианы относится к Магазину1. Больше всего заказов с числом заказов ниже медианы относятся к группам Магазин2 и Магазин3.  
 

 

Квантиль  = = 4,319506. Так как выборочное значение =0,25397 не превышает квантиль = 4,319506, то гипотезу Н0: медианы генеральных совокупностей равны следует принять.

Также отметим, что вычисленный уровень  значимости р в  обоих случаях больше заданного уровня значимости α = 0,05, следовательно, гипотеза H0 не отклоняется. 
 
 

Задание 6. Простая линейная регрессия. 

По выборке  из своего варианта выполнить следующие  расчеты и задания:

  1. Построить диаграмму рассеяния выборки (построение сделать точно на бумаге в клеточку или миллиметровке).
  2. Вычислить   оценки   параметров   линейной   регрессии    Y  на   х: и Х на у: , используя суммы квадратов Qy, Qx, Qxy.
  3. Нанести графики прямых регрессий Y на х и X на у на диаграмму рассеяния.
  4. Для линейной регрессии Y на х вычислить остатки еi,, i= 1, 2, ..., п. остаточную сумму

квадратов   оценку дисперсии ошибок наблюдений S2, коэффициент детерминации R2 и оценку коэффициента корреляции r.

  1. Ввести данные в пакет STATISTICA, выполнить п. 1—4, сравнить результаты расчетов и полученные графики, записать в отчет результаты.
 
X7 2.7 0.2 -1.2 -0.5 -0.7
Y7 1.0 2.8 2.9 3.2 2.5
 

Исходные данные:

Строим График исходных данных (Stats 2D Graphs -> Scatterplots):

 

       Если  р > α, где α — заданный уровень значимости, то гипотеза H0: р0 = 0 принимается.

       В данном случае р = 0,0009, следовательно гипотеза H0: р0 = 0 отклоняется.

       — F — выборочное значение F-статистики, FB
F-статистика используется для проверки гипотезы Но: β1 = 0.

       Если  гипотеза H0: β1 = 0 верна, то статистика F имеет распределение Фишера с (k- 1) и (n - k) степенями свободы.

       Гипотеза  H0 принимается на уровне значимости α, если выборочное значение статистики F, FB, меньше F1-α (k - 1, n - k) — квантили распределения Фишера порядка 1 - α. Если гипотеза H0: β1 = 0 принимается, то регрессионная модель незначима.

  • df— число степеней свободы F-статистики: (k - 1, n - k)
  • р — вычисленный уровень значимости.

       Вычисленный уровень значимости р: р = P[F(k - 1, n - k) > FB], где FB — выборочное значение F-статистики.

       Если  р < α, то гипотеза H0: β1 = 0. отклоняется; если р > α, то гипотеза Но: β1 = 0 принимается.

       В данном примере р = 0,034802, следовательно гипотеза H0: β1 = 0 отвергается на уровне значимости α = 0,05.  

 
 
 

При нажатии  кнопки Summary: Regression results — Результаты регрессии на экране появится следующая таблица с результатами анализа:

     В данном случае гипотеза H0: : отвергается на уровне значимости α = 0,05.

     Вычисленный уровень значимости р < α. Это означает, что регрессионная модель незначима. Гипотеза H0:    также отвергается при α = 0,05.

     Чтобы просмотреть и проанализировать остатки зайдем в меню: Perform residual analysis (анализ остатков), нажав соответствующую кнопку в нижней правой части панели результатов вычислений. 

 
 

    Нормальный  график остатков:

     

       

       

   Остаточная  сумма квадратов Qe (Residual) сумма квадратов, обусловленная регрессией QR (Regress) и сумма квадратов отклонений зависимой переменной Y от среднего Qy (Total) вычисляются при нажатии кнопки ANOVA (Overall goodness of fit) (дисперсионный анализ) на панели результатов вычислений.

   

     В данном случае гипотеза о незначимости регрессионной модели по F-критерию не принимается, т. к. р≈0,03, что меньше обычно задаваемого уровня значимости α= 0,05. 

Информация о работе Задачи по статистике