страница 1 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Похожие работы
|
Состоятельные критерии проверки абсолютной однородности независимых выборок - страница №1/1
![]() УДК 519.234 Наши консультации Состоятельные критерии проверки абсолютной однородности независимых выборок А.И. Орлов1 Критериям проверки гипотезы абсолютной однородности двух независимых выборок посвящен ряд публикации в нашем журнале. Было установлено, что состоятельными являются только критерии Смирнова и Лемана – Розенблатта. В консультации даны алгоритмы расчетов и правила принятия решений для этих критериев. Как и в предыдущих работах [1-3], примем следующую модель порождения данных. Элементы первой выборки x1, x2, ..., xm рассматриваем как результаты m независимых наблюдений некоторой числовой случайной величины Х с функцией распределения F(x), неизвестной статистику, а элементы второй выборки y1, y2, ..., yn - как результаты п независимых наблюдений, вообще говоря, другой случайной величины Y с функцией распределения G(x), также неизвестной статистику. Предполагается также, что наблюдения в одной выборке не зависят от наблюдений в другой, поэтому выборки и называют независимыми. Понятие «однородность», т. е. «отсутствие различия», может быть формализовано в терминах вероятностной модели различными способами. Наивысшая степень однородности (абсолютная однородность) достигается, если обе выборки взяты из одной и той же генеральной совокупности, т. е. справедлива нулевая гипотеза H0 : F(x)=G(x) при всех х. Отсутствие абсолютной однородности означает, что верна альтернативная гипотеза, согласно которой H1 : F(x0)G(x0) хотя бы при одном значении аргумента x0. Если гипотеза H0 принята, то выборки можно объединить в одну, если нет - то нельзя. В некоторых случаях целесообразно проверять не совпадение функций распределения, а лишь совпадение некоторых характеристик случайных величин Х и Y - математических ожиданий, медиан, дисперсий, коэффициентов вариации и др. [2, 3]. В соответствии с методологией прикладной статистики естественно потребовать, чтобы рекомендуемый для массового использования статистический критерий абсолютной однородности был состоятельным, т.е. для любых отличных друг от друга функций распределения F(x) и G(x) (другими словами, при справедливости альтернативной гипотезы H1) вероятность отклонения гипотезы H0 должна стремиться к 1 при увеличении объемов выборок т и п. Из перечисленных в [1, 3] критериев однородности состоятельными являются только двухвыборочные критерии Смирнова и омега-квадрат (Лемана – Розенблатта). Проведенное в Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана исследование мощности (методом статистических испытаний) критериев однородности (при различных вариантах функций распределения F(x) и G(x)) подтвердило преимущество критериев Смирнова и омега-квадрат и при малых объемах выборок 6 - 12. Однако этот вывод не был подкреплен алгоритмами расчетов и правилами принятия решений для указанных критериев. Этот пробел заполняется в настоящей статье. Критерий Смирнова однородности двух независимых выборок. Он был предложен членом-корреспондентом АН СССР Н.В. Смирновым в 1939 г. (см. [4]). Единственное ограничение - функции распределения F(x) и G(x) должны быть непрерывными. Согласно Л.Н. Большеву и Н.В. Смирнову [4] значение эмпирической функции распределения в точке х равно доле результатов наблюдений в выборке, меньших х. Критерий Смирнова основан на использовании эмпирических функций распределения Fm(x) и Gn(x), построенных по первой и второй выборкам соответственно. Значение двухвыборочной статистики Смирнова ![]() сравнивают с соответствующим критическим значением (см., например, [4]) и по результатам сравнения принимают или отклоняют гипотезу Н0 о совпадении (однородности) функций распределения. Практически значение двухвыборочной статистики Смирнова Dm,п рекомендуется согласно [4] вычислять по формулам ![]() ![]() ![]() где x'1 Пример 1. Пусть, как и в [2], даны две выборки. Первая содержит m = 12 элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит n = 14 элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью критерия Смирнова. Переставим элементы первой выборки в в порядке возрастания: 0 < 2 < 3 < 5 < 7 < 13 < 14 < 15 < 17 < 22 < 66 < 97. Аналогично для второй выборки: 1 < 2 < 6 < 7 < 11 < 15 = 15 < 21 < 25 < 29 < 30 < 33 < 44 < 47. Точнее говоря, элементы переставлены в порядке неубывания, поскольку два элемента совпадают. С точки зрения теории вероятность совпадения двух элементов равна 0, но из-за неизбежных округлений эта вероятность положительна. Поскольку совпадений мало (как внутри одной выборки, так и для элементов разных выборок), то использование теории, основанной на нулевой вероятности совпадения элементов выборок, является допустимым. Расчет значений статистик
Таблица 2 Расчет значения статистики ![]()
Беря максимум по столбцу (6) табл.1, получаем, что ![]() В табл.6.5а справочника [4] приведены критические значения для двухвыборочной статистики Смирнова, соответствующие обычно используемым уровням значимости (табл.3). Поскольку полученное по статистическим данным значение меньше критического значения для уровня значимости Таблица 3 Критические значения и истинные уровни значимости для двухвыборочной статистики Смирнова (m = 12, n = 14)
Разработаны алгоритмы и программы для ЭВМ, позволяющие рассчитывать точные распределения, процентные точки и достигаемый уровень значимости для двухвыборочной статистики Смирнова Однако у критерия Смирнова есть и недостатки. Его распределение сосредоточено в сравнительно небольшом числе точек. Ясно, что принимаемые этой статистикой значения пропорциональны величине 1/L, где L – наименьшее общее кратное объемов выборок m и n. Поэтому функция распределения растет большими скачками. Для рассматриваемого примера L – наименьшее общее кратное 12 и 14, т.е. 84. Следовательно, принимаемые статистикой Смирнова входят в арифметическую прогрессию с шагом 1/84 = 0,012. Именно поэтому критические значения в сборнике [4] приведены в виде дроби с знаменателем L = 84. Кроме того, не удается выдержать заданный уровень значимости. Реальный (другими словами, истинный) уровень значимости может значительно, даже в несколько раз отличаться от номинального (подробному обсуждению неклассического феномена существенного отличия реального уровня значимости от номинального посвящена работа [1]). При больших объемах выборок можно воспользоваться доказанной Н.В. Смирновым в 1939 г. теоремой: в случае совпадения непрерывных функций распределения элементов двух независимых выборок
где K(y) – функция распределения Колмогорова, заданная формулой ![]() Поскольку согласно [4] квантиль порядка 0,9 функции распределения Колмогорова равна 1,224, то критическое значение двухвыборочной статистики Смирнова ![]() При m=12, n=14 эта формула дает 0,4815, в то время как точное значение равно 0,464 (см. табл.3). Видим, что приближение удовлетворительное, т.е. рассматриваемые объемы выборок (более 10 элементов) можно считать большими. Для построения правил принятия решений на основе значений двухвыборочной статистики Смирнова, соответствующих другим уровням значимости, можно воспользоваться небольшой табл.4 квантилей функции распределения Колмогорова, взятой из справочника [4]. Таблица 4 Квантили функции распределения Колмогорова
Критерий типа омега-квадрат (Лемана-Розенблатта). Статистика критерия типа омега-квадрат для проверки однородности двух независимых выборок имеет вид: A = ![]() ![]() где Hm+n(x) – эмпирическая функция распределения, построенная по объединенной выборке. Легко видеть, что Hm+n(x) = ![]() ![]() Статистика A типа омега-квадрат была предложена Э. Леманом в 1951 г., изучена М. Розенблаттом в 1952 г., а затем и другими исследователями. Она зависит лишь от рангов элементов двух выборок в объединенной выборке. Пусть ![]() где ri - ранг x'i и sj - ранг y'j в общем вариационном ряду, построенном по объединенной выборке. Расчет значения статистики А типа омега-квадрат (статистики Лемана-Розенблатта) по тем же данным, по которым были найдены значения статистик критериев Вилкоксона и Смирнова, представлен в разаработанной нами табл.5. Суммируя значения в столбце (6), получаем, что
Аналогично получаем с помощью столбца (9), что ![]() Следовательно, ![]() Таблица 5 Расчет значения статистики А Лемана-Розенблатта
Известно [6], что ![]() (в обозначениях [4]), где a1(x) – предельная функция распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова), используемой для проверки согласия эмпирического распределения с заданным теоретическим. Квантили функции распределения a1(x) приведены в табл.6. Известно [4, 6], что в случае статистики Лемана-Розенблатта предельным распределением можно пользоваться и для выборок умеренного объема (5 и 7, 6 и 7, 7 и 7,8 и 8 и т.д.). Поскольку наблюдаемое значение А = 0,1621 меньше любого критического значения в табл.6, то гипотезу однородности двух рассматриваемых выборок следует принять.
Рекомендации по выбору критерия однородности. Для критерия типа омега-квадрат (Лемана-Розенблатта) нет выраженного эффекта различия между номинальными и реальными уровнями значимости. Поэтому мы рекомендуем для проверки абсолютной однородности функций распределения (гипотеза H0) применять статистику А типа омега-квадрат. Если методическое, табличное или программное обеспечение для статистики Лемана - Розенблатта отсутствует, рекомендуем использовать критерий Смирнова. Литература 1. Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез // Заводская лаборатория. 1986. Т.52. № 12. С.55-57. 2. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона? //Заводская лаборатория. 1999. Т.65. № 1. С.51-55. 3. Орлов А.И. О проверке однородности двух независимых выборок // Заводская лаборатория. 2003. Т.69. No.1. С.55-60. 4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. - 416 с. 5. Методика. Проверка однородности двух выборок параметров продукции при оценке ее технического уровня и качества. – М.: ВНИИ стандартизации, 1987. – 116 с. 6. Орлов А.И. Прикладная статистика. – М.: Экзамен, 2006. – 671 с. 1 Институт высоких статистических технологий и эконометрики Московского государственного технического университета им. Н.Э. Баумана. |
ещё >> |