Проверка статистической гипотезы
-
История проверки статистических гипотез
- Проверка гипотез стала популярной в начале 20-го века.
- Ранние формы использовались в 1700-х годах.
- Пьер Лаплас и Карл Пирсон внесли значительный вклад в развитие метода.
-
Выбор нулевой гипотезы
- Пол Мил утверждал, что выбор нулевой гипотезы важен для точности эксперимента.
- Нулевая гипотеза может быть предсказанной теорией или общепринятым мнением.
-
Современное происхождение и споры
- Современное тестирование значимости связано с работами Карла Пирсона, Уильяма Сили Госсета и Рональда Фишера.
- Фишер и Нейман/Пирсон разработали разные подходы к проверке гипотез.
- Фишер популяризировал «тест на значимость», а Нейман/Пирсон предложили более объективную альтернативу.
-
Философия и образование
- Проверка гипотез связана с философией вероятности и прикладной вероятностью.
- Фишер и Нейман выступали против субъективности вероятности.
- Проверка гипотез преподается в школах и колледжах, а также в аспирантуре.
-
Современное состояние
- Проверка гипотез считается зрелой областью в статистике.
- Некоторые разработки продолжаются, но метод обучения вводной статистике не учитывает историю и философию.
-
Философские заблуждения выпускников
- Выпускники курсов статистики продолжают придерживаться фундаментальных заблуждений относительно проверки гипотез.
- Проблема была решена более десяти лет назад, но призывы к реформе образования продолжаются.
-
Этапы проверки частотной гипотезы
- Определение гипотезы и выбор статистического теста.
- Выведение распределения тестовой статистики и выбор уровня значимости.
- Вычисление наблюдаемого значения тестовой статистики и принятие решения.
-
Практический пример
- Пример с радиоактивным чемоданом: первый отчет адекватен, второй дает более подробное объяснение.
- Отказ от нулевой гипотезы не означает её принятие.
-
Толкование и использование
- Вероятность p-значения меньше уровня значимости гарантирует заданный уровень ложноположительных результатов.
- Значение p не дает представления о вероятности истинности гипотезы.
- Проверка гипотез полезна при анализе данных и обосновании выводов.
-
Реальные приложения
- Проверка различий между мужчинами и женщинами по ночным кошмарам.
- Установление авторства документов и оценка влияния полнолуния.
- Определение дальности обнаружения насекомых летучими мышами.
-
Предостережения и критика
- Успешная проверка гипотезы связана с вероятностью ошибок первого типа.
- Планирование эксперимента имеет решающее значение.
- Статистический анализ вводящих в заблуждение данных может привести к неверным выводам.
-
Определение терминов
- Статистическая гипотеза: утверждение о параметрах совокупности.
- Тестовая статистика: значение, рассчитанное на основе выборки.
- Нулевая гипотеза (H0): утверждение, которое можно проверить.
- Альтернативная гипотеза (H1): утверждение, которое можно отвергнуть.
- Область отклонения / Критическая область: набор значений тестовой статистики для отклонения нулевой гипотезы.
- Мощность теста: вероятность отклонения нулевой гипотезы.
- Уровень значимости теста (α): максимальный допустимый уровень ложноположительных результатов.
- p-значение: вероятность получения экстремальной тестовой статистики при нулевой гипотезе.
-
Статистическая значимость и проверка гипотез
- Экспериментальный результат считается статистически значимым, если выборка не соответствует нулевой гипотезе.
- Проверка гипотез придала концепции математическую строгость и философскую непротиворечивость.
-
Консервативные и точные тесты
- Консервативный тест: вероятность неправильного отклонения нулевой гипотезы не превышает номинального уровня.
- Точный тест: минимизирует частоту ошибок второго типа при фиксированном уровне частоты ошибок первого типа.
-
Методы повторной выборки
- Bootstrap создает множество имитируемых выборок для проверки нулевой гипотезы.
- Bootstrap универсален и не требует распространения, но опирается на эмпирические методы.
-
Примеры использования
- Соотношение полов у людей: Арбутнот и Лаплас использовали тесты для проверки гипотезы о равновероятности рождения детей.
- Леди, пробующая чай: Фишер использовал тест для проверки способности дамы определять чай или молоко в чашке.
- Судебный процесс: процедура проверки гипотезы аналогична уголовному процессу.
-
Философские бобы и карточная игра для ясновидящих
- Философский пример: проверка гипотезы о происхождении бобов.
- Карточная игра для ясновидящих: проверка гипотезы о ясновидении испытуемого.
-
Определение критической вероятности ошибки
- Перед проведением теста определяется максимально допустимая вероятность ошибки I типа (α).
- Обычно выбираются значения в диапазоне от 1% до 5%.
- Критическое значение c вычисляется в зависимости от частоты ошибок 1-го типа.
-
Разновидности и подклассы проверки гипотез
- Проверка статистических гипотез является ключевым методом частотного и байесовского вывода.
- Статистическая проверка гипотез контролирует вероятность неправильного принятия решения о нулевой гипотезе.
- Байесовская теория принятия решений пытается сбалансировать последствия неправильных решений.
-
Проверка гипотезы Неймана–Пирсона
- Пример проверки гипотезы Неймана–Пирсона: выбор между гипотезами о радиоактивном чемодане.
- Лемма Неймана–Пирсона гласит, что хорошим критерием является соотношение вероятностей.
- Теория Неймана–Пирсона учитывает предшествующие вероятности и затраты на действия.
-
Сравнение формулировок проверки гипотез
- Оригинальный тест аналогичен вопросу «правда/ложь».
- Тест Неймана–Пирсона больше похож на множественный выбор.
- Обе формулировки успешны, но с разными успехами.
-
Критика проверки статистических гипотез
- Интерпретация p-значения зависит от правила остановки и множественного сравнения.
- Объединение методов Фишера и Неймана–Пирсона вызывает путаницу.
- Упор на статистическую значимость исключает оценку и подтверждение повторными экспериментами.
- Строгое требование статистической значимости приводит к предвзятости публикации.
- Проверка статистических гипотез неправильно понимается и используется не по назначению.
- Вероятность статистической значимости зависит от решений экспериментаторов/аналитиков.
- В психологии нулевые гипотезы часто объявляются ложными для больших выборок.
- Статистическая значимость не подразумевает практической значимости.
- Успешное отклонение нулевой гипотезы не всегда свидетельствует в пользу исследовательской гипотезы.
-
Споры о статистической практике
- Продолжаются споры о наилучшей статистической практике.
- Критики предлагают запретить NHST, сторонники предлагают менее радикальные изменения.
-
Влияние на публикации
- Американская психологическая ассоциация ужесточила требования к статистической отчетности.
- Издатели медицинских журналов публикуют результаты, не являющиеся статистически значимыми.
- Создан журнал для публикации статей, подтверждающих нулевую гипотезу.
-
Альтернативы проверке значимости
- Критики предлагают использовать доверительные интервалы и байесовские методы.
- Байесовский вывод предоставляет богатую информацию о данных.
- Байесовские методы требуют информации, редко доступной в социальных науках.
-
Критика байесовского подхода
- Байесовские методы могут быть субъективными из-за использования априорных вероятностей.
- Фишер и Нейман–Пирсон разработали свои подходы для обхода субъективности.
-
Рекомендации и дальнейшее чтение
- Леманн Э.Л. (1992) «Введение в работу Неймана и Пирсона (1933) по проблеме наиболее эффективной проверки статистических гипотез».
- Байесовская критика классической проверки гипотез.
- Обзор статистических тестов: Как выбрать правильный статистический тест.