СТАТИСТИ́ЧЕСКИХ ГИПО́ТЕЗ ПРОВЕ́РКА
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
Книжная версия:
Электронная версия:
СТАТИСТИ́ЧЕСКИХ ГИПО́ТЕЗ ПРОВЕ́РКА, один из основных разделов математической статистики, объединяющий методы проверки соответствия статистич. данных некоторой статистич. гипотезе о вероятностной природе данных. Процедуры С. г. п. позволяют принимать или отвергать статистические гипотезы, возникающие при обработке или интерпретации результатов наблюдений во многих практически важных разделах науки и производства, связанных со случайностью. Правило, в соответствии с которым принимается или отклоняется данная гипотеза, называется статистич. критерием. Построение критерия определяется выбором подходящей функции T=T(X1,...,Xn) от результатов наблюдений X1,...,Xn, которая служит мерой расхождения между фактич. и гипотетич. значениями. Эта функция, являющаяся случайной величиной, называется статистикой критерия, при этом предполагается, что распределение вероятностей T может быть вычислено при допущении, что проверяемая гипотеза верна и что распределение T не зависит от характеристик гипотетич. распределения. По распределению статистики T находится критич. значение T0 такое, что вероятность неравенства T>T0 равна α, где α – заранее заданный уровень значимости [область значений (x_1, ..., x_n), для которых T(x_1, ..., x_n) > T_0, т. е. область отклонения гипотезы H_0, называемая критич. областью]. Если в конкретном случае обнаружится, что T > T_0, то считается, что расхождение значимо и гипотеза отвергается, тогда как появление значения T ⩽ T_0 не противоречит гипотезе. Такого рода критерии, называемые критериями значимости, используются для проверки как гипотез о параметрах распределения, так и гипотез о самих распределениях. В частном случае, когда проверяется согласие между выборочным и гипотетич. распределением, пользуются термином критерий согласия.
Пусть, напр., проверяется гипотеза о том, что независимые наблюдения X_1, ..., X_n имеют нормальное распределение со средним значением a=a_0 при известной дисперсии σ^2. В этом случае среднее арифметическое \overline X =(X_1,...,X_n)/n результатов наблюдений распределено нормально с математич. ожиданием a=a_0 и дисперсией σ^2/n, а величина\sqrt{n}\frac{\overline X - a_0}{σ}имеет стандартное нормальное распределение. Полагая T=\sqrt{n}\frac{\left|\overline X - a_0\right|}{σ}, можно найти связь между T_0 и α, скажем, по таблицам нормального распределения (величина T_0 является квантилью порядка 1-α/2 или, что то же самое, абсолютной величиной квантили порядка α/2 стандартного нормального распределения). Напр., при гипотезе a=a_0 событие T > 1,96 имеет вероятность 0,05. Правило, в соответствии с которым гипотеза a=a_0 объявляется неверной при T > 1,96, будет приводить к отбрасыванию этой гипотезы в среднем в 5 случаях из 100, в которых она верна. Если же T ⩽ 1,96, то это ещё не означает, что гипотеза подтверждается, т. к. указанное неравенство с большой вероятностью может выполняться при a, близких к a_0. Таким образом, при использовании предложенного критерия можно лишь утверждать, что результаты наблюдений не противоречат гипотезе a=a_0.
Если дисперсия σ^2 неизвестна, то для проверки гипотезы a=a_0 вместо приведённого выше критерия можно пользоваться критерием Стьюдента, основанным на величине \sqrt{n}\frac{\overline X - a_0}{s},которая включает несмещённую оценку дисперсииs^2=\frac{1}{n-1}\sum_{k=1}^n(X_k-\overline X)^2и имеет Стьюдента распределение с n-1 степенью свободы. Полагая T=\sqrt{n}\frac{\overline X - a_0}{s}, можно найти связь между T_0 и α по таблицам распределения Стьюдента.
При решении вопроса о принятии или отклонении к.-л. гипотезы H0 с помощью любого критерия, основанного на результатах наблюдения, могут быть допущены ошибки двух типов. Ошибка «первого рода» совершается тогда, когда отвергается верная гипотеза H0. Ошибка «второго рода» совершается в том случае, когда гипотеза H0 принимается, а на самом деле верна не она, а к.-л. альтернативная гипотеза H_1. Естественно требовать, чтобы критерий для проверки данной гипотезы приводил возможно реже к ошибочным решениям. Обычная процедура построения наилучшего критерия для проверки простой статистич. гипотезы заключается в выборе среди всех критериев с заданным уровнем значимости α (вероятность ошибки 1-го рода) такого, который имел бы наименьшую вероятность ошибки 2-го рода или, что то же самое, наибольшую вероятность отклонения гипотезы, когда она неверна. Последняя вероятность (разность между единицей и ошибкой 2-го рода) называется мощностью статистич. критерия. В случае, когда альтернативная гипотеза H_1 простая, наилучшим будет критерий, который имеет наибольшую мощность среди всех др. критериев с заданным уровнем значимости α. Если альтернативная гипотеза H_1 сложная, напр. зависит от параметра, то мощность критерия будет функцией, определённой на классе простых альтернативных гипотез, составляющих H_1, т. е. будет функцией параметра. Критерий, имеющий наибольшую мощность при каждой альтернативной гипотезе из H_1, называется равномерно наиболее мощным статистич. критерием, однако следует отметить, что такие критерии существуют лишь в немногих спец. ситуациях. В задаче о проверке простой гипотезы a=a_0 о среднем значении нормального распределения против сложной альтернативной гипотезы a > a_0 равномерно наиболее мощной критерий существует, тогда как при проверке той же гипотезы против сложной альтернативы a≠a_0 его нет. Поэтому часто ограничиваются поиском равномерно наиболее мощных критериев в тех или иных спец. классах.
Важную роль в теории С. г. п. играют идеи, связанные с последовательным анализом.