Самонастройка (статистика)
-
Определение и принципы самонастройки
- Самонастройка оценивает распределение оценщика путем повторной выборки данных или модели.
- Определяет показатели точности для выборочных оценок.
- Использует методы случайной выборки для оценки распределения выборки.
-
История и развитие
- Bootstrap был предложен Брэдли Эфроном в 1979 году.
- Разработаны улучшенные оценки дисперсии и байесовское расширение.
- В 1987 году Эфрон разработал BC_BOS_a, а в 1992 году — ABC.
-
Подход и примеры
- Bootstrap моделирует вывод о совокупности на основе повторной выборки данных.
- Пример: измерение среднего роста людей по всему миру.
- Bootstrap создает гистограмму средств начальной загрузки для оценки формы распределения.
-
Преимущества и недостатки
- Простота и удобство использования.
- Асимптотическая точность по сравнению с традиционными методами.
- Зависимость от используемой оценки и репрезентативности выборки.
- Сложность автоматизации и ограниченное программное обеспечение.
-
Рекомендации и типы схем
- Использование большего числа выборок для уменьшения влияния случайных ошибок.
- Рекомендации для сложных или неизвестных распределений, недостаточных выборок и расчетов мощности.
- Типы схем: повторная выборка случая, параметрическая начальная загрузка, плавная загрузка.
-
Применение и ограничения
- Bootstrap полезен для оценки распределения статистических данных без допущений о нормальности.
- Методы начальной загрузки могут применяться к большинству случайных величин.
- Ограничения: зависимость от используемой оценки, сложность автоматизации, ограниченное программное обеспечение.
-
Методы повторной выборки
- Метод Монте-Карло: повторная выборка данных с заменой, вычисление статистики на основе повторной выборки.
- «Точная» версия: исчерпывающее перечисление всех возможных повторных выборок, что может быть дорогостоящим.
-
Оценка распределения выборочного среднего
- Пример с подбрасыванием монетки: использование t-статистики для оценки распределения выборочного среднего.
- Bootstrap: повторная выборка данных для получения начального распределения среднего значения.
-
Регрессия и повторная выборка
- В задачах регрессии повторная выборка наблюдений может быть приемлемой, но требует критики.
- Байесовский bootstrap: создание новых наборов данных путем повторного взвешивания исходных данных.
- Плавный процесс начальной загрузки: добавление случайного шума к каждому наблюдению.
- Параметрический bootstrap: подбор параметрической модели и выборка случайных чисел из нее.
- Повторная выборка остатков: добавление случайных остатков к установленным значениям.
- Начальная загрузка регрессионного процесса по Гауссу: использование регрессии процесса по Гауссу для построения вероятностной модели.
-
Распределение выходных данных
- Выходные данные y распределяются по многомерной гауссовой функции
- mпост и Kпост вычисляются на основе y и K∗
-
Дикий бутстрап
- Подходит для моделей с гетероскедастичностью
- Остатки умножаются на случайную величину vя
- Используются различные формы vя
-
Блочный бутстрап
- Используется для коррелированных данных
- Разбивает данные на блоки и повторно выбирает внутри блоков
- Включает методы для временных рядов и кластерных данных
-
Методы повышения вычислительной эффективности
- Параллельная обработка для ускорения вычислений
- Пуассоновский бутстрап для независимости выборок
- Bag of Little Bootstraps для предварительной агрегации данных
-
Выбор статистического показателя
- Начальное распределение используется для доверительных интервалов
- Байесовские и оценки максимального правдоподобия предпочтительны при бесконечных выборках
-
Получение доверительных интервалов
- Начальное распределение параметра-оценщика используется для доверительных интервалов
- Желаемые свойства включают инвариантность преобразования и согласованность
-
Уточнения и расширения
- Уточнения основаны на скорости приближения вероятности покрытия к номинальному значению
- Методы различаются по точности аппроксимации
-
Точность и скорость сходимости
- Методы различаются по скорости сходимости критической точки начальной загрузки.
- Метод является корректным второго порядка, если скорость сходимости равна O(n^-3/2).
-
Предвзятость и доверительные интервалы
- Начальное распределение и выборка могут расходиться, что приводит к предвзятости.
- Процентильные доверительные интервалы подходят для симметричных распределений.
- Смещение в распределении начальной загрузки приводит к смещению доверительного интервала.
-
Методы определения доверительных интервалов
- Базовый bootstrap: эмпирические квантили из начального распределения параметра.
- Процентильный bootstrap: процентили распределения начальной загрузки.
- Обученный бутстрэп: квантили из распределения bootstrap t-критерия Стьюдента.
- Bootstrap с поправкой на смещение: корректирует смещение в дистрибутиве bootstrap.
- Ускоренный bootstrap: корректирует смещение и асимметрию в распределении bootstrap.
-
Проверка гипотезы начальной загрузки
- Эфрон и Тибширани предлагают алгоритм сравнения средних значений двух выборок.
- Создаются новые наборы данных, вычисляется статистика теста и повторяется несколько раз.
-
Примеры применения
- Сглаженный bootstrap: добавление шума для уменьшения дискретности распределения.
- Связь с другими методами повторной выборки: bootstrap отличается от jackknife и перекрестной проверки.
- U-статистика: создание статистики из n выборок с помощью среднего значения статистики по всем подвыборкам размера r.
-
Асимптотическая теория
- Bootstrap обладает желаемыми асимптотическими свойствами при определенных условиях.
- Стохастическая конвергенция: сходимость выборочных путей процесса начальной загрузки.
- Консистенция: оценка начальной загрузки является последовательной, если сходится с вероятностью к 0 при n → ∞.
-
Асимптотическая функция распределения
- G(τ, F0) является асимптотической функцией распределения Tn.
- τ является индексирующей переменной в функции распределения.
- P(Tn ≤ τ) = G(τ, F0).
-
Согласованность относительно расстояния Колмогорова-Смирнова
- Согласованность относительно расстояния Колмогорова-Смирнова облегчает проверку условий для согласованности статистических данных.
- Горовиц рекомендует использовать теорему Маммена для проверки условий.
-
Начальная оценка кумулятивной функции распределения
- Начальная оценка кумулятивной функции распределения оценивает эмпирическую кумулятивную функцию распределения.
- Tn сходится к стандартному нормальному распределению.
-
Сильная согласованность
- Сходимость по (внешней) вероятности называется слабой согласованностью.
- Сильная согласованность подразумевает сходимость почти наверняка.
- Слабая согласованность достаточна для большинства статистических приложений.
-
Демонстрация согласованности с использованием центральной предельной теоремы
- Центральная предельная теорема используется для демонстрации согласованности процедуры начальной загрузки.
- Рассматриваются независимые одинаково распределенные случайные величины с известным средним и дисперсией.
- Показывается, что P(n(X¯n∗ − X¯n)σ^n ≤ τ) → 0 в вероятности при n → ∞.
-
Теорема Гливенко–Кантелли
- Теорема Гливенко–Кантелли обеспечивает теоретическую основу для метода начальной загрузки.