Основы математической статистики

Автор работы: Пользователь скрыл имя, 17 Ноября 2013 в 12:45, лекция

Краткое описание

Математическая статистика – наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования. Математическая статистика является связующим звеном между теорией вероятностей и явлениями реального мира. Математическая статистика исходит из понятия генеральной совокупности – конечного или бесконечного множества объектов, каждый из которых характеризуется качественным признаком или обладает количественной характеристикой. При этом исследуется не вся совокупность объектов, а только случайно отобранная часть ее.

Вложенные файлы: 1 файл

5 Основы математической статистики.doc

— 389.00 Кб (Скачать файл)

 

Рисунок 5.2 – Гистограмма  частот (а) и относительных частот (б)

Обе гистограммы (рис.5.2) по форме одинаковы и отличаются лишь масштабом по оси ординат. Площадь  гистограммы относительных частот, как и площадь плотности распределения  случайной величины, равна единице, что позволяет определять вероятность попадания случайной величины в заданный интервал путем вычисления площади части гистограммы, ограниченной этим интервалом.

 

5.2.2 Статистические  оценки параметров распределения

 

В ряде практических случаев ограничиваются нахождением приближенных значений неизвестных параметров распределения случайной величины по опытным данным, т.е. статистических оценок таких числовых характеристик как математическое ожидание, дисперсия и среднее квадратичное отклонение.

Под оценкой параметра обычно понимают величину, принимаемую за неизвестный параметр a.

Требования к оценке параметров. Для того, чтобы оценка параметра имела практическую ценность, она должна (по возможности) обладать свойствами: несмещенности, эффективности и состоятельности.

Оценка называется несмещенной, если ее математическое ожидание равно истинному значению параметра, т.е.

  .

 Исключение смещенности оценки  гарантирует отсутствие систематических ошибок при оценке истинного значения параметра a. Если , то оценка называется смещенной, что приводит к систематическим ошибкам в оценке параметра a.

Несмещенная оценка называется эффективной, если она имеет наименьшее рассеяние среди всех несмещенных оценок параметра a по результатам измерения, т.е.

.

Эффективность оценки означает стремление дисперсии к нулю при неограниченном возрастании объема выборки.

Оценка называется состоятельной, если при неограниченном увеличении числа измерений n она стремится по вероятности к значению a, т.е.

.

Оценка  истинного значения параметра a при равноточных измерениях является несмещенной и состоятельной. Если при этом случайные ошибки измерения подчиняются нормальному закону распределения вероятностей, то эта оценка будет и эффективной.

В качестве оценки  для математического ожидания применяют среднее арифметическое значений выборки, т.е.

  .                                                                                            (5.3)

Эта оценка является несмещенной  и состоятельной. Проверка требования эффективности оценки параметра значительно сложнее. Однако если случайная величина распределена по нормальному закону, то оценка математического ожидания m является также эффективной оценкой и имеет минимальную дисперсию

.

Для других же законов  распределения эта оценка может  и не быть эффективной.

За оценку для дисперсии принимают среднее арифметическое квадратов центрированных значений выборки:

  .                                                                            (5.4)

Эта оценка является состоятельной, но смещенной оценкой дисперсии. Оценка же дисперсии, называемая исправленной дисперсией

,                                                                              (5.5)

 является состоятельной, несмещенной, но и неэффективной. Исправленная дисперсия отличается от статистической  дисперсии D*(x) лишь постоянным множителем n/(n-1).

Для нормально распределенных случайных величин эта оценка лишь «асимптотически эффективна», т.е. при неограниченном увеличении числа испытаний n она приближается к минимальному значению.

При достаточно больших  значениях n смещенная статистическая дисперсия D*(x) и исправленная дисперсия будут различаться незначительно, поэтому в качестве оценки для дисперсии можно применять любую из них.

 

5.2.3 Точность  и надежность статистической  оценки

 

Понятие о распределении Стьюдента и хи–квадрат. Если случайная величина X подчинена нормальному закону, то для оценки параметров и проверки различных гипотез относительно этих параметров необходимо знание точного распределения некоторых выборочных характеристик. Например, для нахождения распределения эмпирической дисперсии необходимо исследовать распределение характеристик случайной величины, представляющей собой сумму квадратов n независимых случайных величин , каждая из которых подчиняется нормальному закону с параметрами a=0 и .

Распределение случайной  величины, удовлетворяющей этим условиям, называют хи–квадрат распределением или - распределением с k=n степенями свободы.

Число степеней свободы  равно числу независимых переменных минус число связей, накладываемых на эти переменных. Если величины связаны одним линейным соотношением, например, , то число степеней свободы k=n-1.

Дифференциальная функция  - распределения для нее имеет вид

 при x>0, f(x)=0 при x<=0. Здесь

- гамма – функция.

В частности, если x=n, то

Для дифференциальной функции  - распределения из-за ее сложности составлены таблицы, позволяющие вычислять вероятности , того, что случайная величина, распределенная по закону с известным числом степеней свободы k, превысит некоторое фиксированное значение .

График плотности вероятности - распределения при числе степеней свободы n=1, 2 и 6 изображен на рис. 5.3.

 

Рисунок 5.3 - График плотности  вероятности 

- распределения

 

Распределение статистики не зависит ни от математического ожидания случайной величины X, ни от дисперсии, а зависит лишь от объема выборки n. Если случайная величина имеет распределение с k=n степенями свободы, то математическое ожидание и дисперсия соответственно равны: .

Пример. Случайная величина имеет - распределение с числом степеней свободы 5. Найти отклонение , вероятность превышения которого равна 0.2.

Решение.

Из условия задачи следует, что надо найти такое значение , чтобы выполнялось равенство .

Искомое значение ищется на пересечении строки 5 и столбца 0,2 таблицы (приложение). Оно равно 7,3, поэтому .

Распределение обладает тем свойством, что сумма величин , распределенные по закону со степенями свободы равными , также распределена по закону с степенями свободы.

При решении многих задач  статистики приходится иметь дело со случайными величинами, имеющими так  называемое распределение Стьюдента  или t-распределение. Это же распределение применяется при нахождении оценки отклонения выборочного среднего от центра нормального распределения.

Распределение Стьюдента  имеет случайная величина

, где Z – случайная величина, распределенная по нормальному закону с параметрами a=0 и ; V – независимая от Z случайная величина, распределенная по закону с k=n степенями свободы.

Дифференциальная функция  распределения Стьюдента имеет  вид

.

Распределение Стьюдента  обладает тем свойством, что с возрастанием числа степеней свободы оно быстро приближается к нормальному распределению (рис.5.4).

 

Рисунок. 5.4 – Графики  нормального распределения и t - распределения

 

Доверительные границы для средних. Статистические оценки параметров распределения генеральной совокупности, рассмотренные ранее, являются точечными оценками. Если объем выборки невелик, то точечная оценка параметра может значительно отличаться от самого параметра. Поэтому в этих случаях применяют интервальную оценку. Задача интервальной оценки заключается в том, что по данным выборки строится такой числовой интервал (доверительный интервал), внутри которого с заранее заданной вероятностью, близкой к единице, будет находиться оцениваемый параметр.

Пусть для неизвестного параметра a найдена оценка и задана вероятность , близкая к единице (доверительная вероятность). Требуется найти такое значение , чтобы интервал длины 2 накрыл искомое значение параметра a с вероятностью (надежностью) , иначе говоря, выполнялось равенство

 или  .

Безусловно, чем меньше длина интервала, тем точнее оценка искомого параметра a. При этом выбор доверительной вероятности (надежности) не является математической задачей, а определяется  условиями задачи.

Например, пусть на двух предприятиях вероятность выпуска  стандартных изделий равна 0,99, т.е. вероятность бракованных изделий равна q=0,01. Мала или велика эта вероятность? Для ответа на этот вопрос необходимо знать характер выпускаемой продукции. Пусть одно предприятие выпускает гвозди, а другое – парашюты. Если из 100 гвоздей один окажется бракованным, то с этим в какой-то степени можно мириться. Если же из каждых 100 парашютов один будет бракованным, то это может привести к многочисленным несчастным случаям, что недопустимо.

Задача построения доверительного интервала для оценки математического ожидания нормального  распределения при известном среднем квадратичном отклонении сводится к следующему.

Обозначим неизвестное  математическое ожидание через a, оценку же для него - .

Для нормального распределения

  ; ; .

Найдем доверительный  интервал, покрывающий неизвестный  параметр a с надежностью , т.е. найдем такое , чтобы выполнялось равенство

.                                                                                   (5.6)

Для этого воспользуемся  формулой

, где Ф(x) – интеграл вероятности.

Заменив в ней X на и на , получим

, где  .

На основании равенства (5.6) можем записать, что

, отсюда  .

Число t определяется по таблице значений функции Лапласа. Затем из соотношения находится оценка . С учетом этого доверительный интервал будет

.                                                                            (5.7)

Пример. Случайная величина X имеет нормальное распределение с известным средним квадратичным отклонением . Построить доверительный интервал для неизвестного математического ожидания соответствующий доверительной вероятности , если объем выборки n=25.

Решение.

Найдем t из соотношения . По таблице значений функции Лапласа находим t, соответствующее значению Ф(t)=0.95/2=0.475. Оно будет t=1.96.

Определяем точность оценки

.

Следовательно, доверительный  интервал будет

.

Полученный результат  говорит о том, что этот доверительный интервал покрывает неизвестное математическое ожидание a с вероятностью 0,95.

Задача построения доверительного интервала для оценки среднего квадратичного отклонения  нормального распределения, покрывающего параметр с заданной надежностью по исправленному среднему квадратичному отклонению s.

Решение задачи сводится к нахождению такого числа  , чтобы выполнялось равенство

 или  .

Для того чтобы можно  было пользоваться готовой таблицей, преобразуем двойное неравенство  в равносильное неравенство

.

Обозначив , получим

.                                                                         (5.8)

Таким образом, задача построения искомого доверительного интервала  свелась к нахождению величины q.

Не вдаваясь в детали, отметим, что для этой цели вводится случайная величина X, равная

,

дифференциальная функция которой имеет вид

.

Для нахождения доверительной  вероятности используется формула

, где  .

Из равенства (5.8) по заданному n и находится значение .

Функция табулирована.

Следовательно, для построения искомого доверительного интервала  достаточно по таблице найти соответствующее значение функции , а затем в двойное неравенство подставить значения s и q.

Пример. Построить доверительный интервал, покрывающий генеральное среднее квадратичное отклонение с надежностью , если по выборке объема n найдено исправленное среднее квадратичное отклонение s:

а)

б) .

Решение.

По таблице значений функции  находим:

а) ; искомый доверительный интервал будет

; или

.

б) ; искомый интервал будет или .

Так как среднее квадратичное отклонение всегда положительно, то окончательно получим, что .

Информация о работе Основы математической статистики