Проблема множественных сравнений
-
Проблема множественных сравнений
- Возникает при одновременном рассмотрении нескольких статистических выводов.
- Чем больше выводов, тем выше вероятность ошибочных умозаключений.
-
Методы решения проблемы
- Установление более строгого порога значимости для отдельных сравнений.
- Методы определения частоты ошибок по семействам.
-
История и определение
- Проблема привлекла внимание в 1950-х годах.
- В 1996 году состоялась первая международная конференция по процедурам множественного сравнения.
- Множественные сравнения возникают при одновременном проведении нескольких статистических тестов.
-
Примеры и последствия
- Сравнение групп лечения и контроля может привести к ошибочным выводам.
- Эффективность лекарственного средства может быть завышена при сравнении с существующими препаратами.
-
Классификация множественных проверок гипотез
- Возможны различные результаты при проверке нескольких нулевых гипотез.
- Суммирование результатов дает случайные величины V, S, T, U и R.
-
Процедуры контроля
- Коррекция множественного тестирования повышает строгость тестов.
- Наиболее известная коррекция — коррекция Бонферрони.
- Существуют и другие методы, такие как коррекция Шидака и метод Холма-Бонферрони.
-
Крупномасштабное многократное тестирование
- Традиционные методы корректировки подходят для небольшого количества сравнений.
- Для крупномасштабного тестирования разработаны новые методы.
- Частота ошибок в разбивке по семействам остается приемлемым параметром.
- Альтернативно, можно контролировать частоту ложных открытий (FDR).
-
Оценка альтернативных гипотез
- Основной вопрос — есть ли доказательства, что какая-либо из альтернативных гипотез верна.
-
Мета-тест с использованием распределения Пуассона
- Применяется при независимых тестах
- Использует распределение Пуассона для определения количества значимых результатов
- Если наблюдаемое количество положительных результатов превышает ожидаемое, это указывает на наличие положительных результатов
-
Пример с 1000 тестами
- При α = 0,05 ожидается 50 значимых тестов
- Вероятность наблюдения более 61 значимого теста менее 0,05
- Если наблюдается более 61 значимого результата, вероятно, некоторые из них соответствуют альтернативной гипотезе
-
Недостатки подхода
- Преувеличивает доказательства при положительной корреляции тестовой статистики
- Подходит при наличии корреляции, если распределение Пуассона обеспечивает хорошее приближение
-
Двухэтапный анализ
- Ограничивает Рузвельта на заранее определенном уровне
- Применяется при извлечении значимых часто используемых наборов элементов из транзакционных данных
-
Нормальный квантильный график
- Используется при стандартизированной тестовой статистике
- Заметно более разбросанные квантили указывают на положительные результаты
-
Дополнительные методы и концепции
- q-значение, частота семейных ошибок, частота ложных срабатываний, частота ложных обнаружений, коэффициент ложного покрытия, оценка интервала, последующий анализ, частота экспериментальных ошибок, проверка статистических гипотез, закрытая процедура тестирования, коррекция Бонферрони, граница между Булем и Бонферрони, новый тест Дункана на дальность стрельбы, метод Холма–Бонферрони, процедура определения среднего гармонического значения p, процедура Бенджамини–Хохберга, проверка гипотез, выдвинутых на основе полученных данных, ошибка техасского снайпера, выбор модели, эффект поиска в другом месте, углубление в данные
-
Рекомендации и дальнейшее чтение
- F. Бретц, Т. Хотхорн, П. Westfall (2010), Множественные сравнения с использованием R, CRC Press
- S. Дудуа и М. J. ван дер Лаан (2008), Множественные процедуры тестирования в применении к геномике, Springer
- P. H. Уэстфолл и С. S. Янг (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения, Уайли
- P. Уэстфолл, Р. Тобиас, Р. Вольфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS, 2-е издание, Институт SAS