Бутстрэппинг (статистика)

Самонастройка (статистика) Определение и принципы самонастройки Самонастройка оценивает распределение оценщика путем повторной выборки данных или модели.   Определяет показатели точности для […]

Самонастройка (статистика)

  • Определение и принципы самонастройки

    • Самонастройка оценивает распределение оценщика путем повторной выборки данных или модели.  
    • Определяет показатели точности для выборочных оценок.  
    • Использует методы случайной выборки для оценки распределения выборки.  
  • История и развитие

    • Bootstrap был предложен Брэдли Эфроном в 1979 году.  
    • Разработаны улучшенные оценки дисперсии и байесовское расширение.  
    • В 1987 году Эфрон разработал BC_BOS_a, а в 1992 году — ABC.  
  • Подход и примеры

    • Bootstrap моделирует вывод о совокупности на основе повторной выборки данных.  
    • Пример: измерение среднего роста людей по всему миру.  
    • Bootstrap создает гистограмму средств начальной загрузки для оценки формы распределения.  
  • Преимущества и недостатки

    • Простота и удобство использования.  
    • Асимптотическая точность по сравнению с традиционными методами.  
    • Зависимость от используемой оценки и репрезентативности выборки.  
    • Сложность автоматизации и ограниченное программное обеспечение.  
  • Рекомендации и типы схем

    • Использование большего числа выборок для уменьшения влияния случайных ошибок.  
    • Рекомендации для сложных или неизвестных распределений, недостаточных выборок и расчетов мощности.  
    • Типы схем: повторная выборка случая, параметрическая начальная загрузка, плавная загрузка.  
  • Применение и ограничения

    • Bootstrap полезен для оценки распределения статистических данных без допущений о нормальности.  
    • Методы начальной загрузки могут применяться к большинству случайных величин.  
    • Ограничения: зависимость от используемой оценки, сложность автоматизации, ограниченное программное обеспечение.  
  • Методы повторной выборки

    • Метод Монте-Карло: повторная выборка данных с заменой, вычисление статистики на основе повторной выборки.  
    • «Точная» версия: исчерпывающее перечисление всех возможных повторных выборок, что может быть дорогостоящим.  
  • Оценка распределения выборочного среднего

    • Пример с подбрасыванием монетки: использование t-статистики для оценки распределения выборочного среднего.  
    • Bootstrap: повторная выборка данных для получения начального распределения среднего значения.  
  • Регрессия и повторная выборка

    • В задачах регрессии повторная выборка наблюдений может быть приемлемой, но требует критики.  
    • Байесовский bootstrap: создание новых наборов данных путем повторного взвешивания исходных данных.  
    • Плавный процесс начальной загрузки: добавление случайного шума к каждому наблюдению.  
    • Параметрический bootstrap: подбор параметрической модели и выборка случайных чисел из нее.  
    • Повторная выборка остатков: добавление случайных остатков к установленным значениям.  
    • Начальная загрузка регрессионного процесса по Гауссу: использование регрессии процесса по Гауссу для построения вероятностной модели.  
  • Распределение выходных данных

    • Выходные данные y распределяются по многомерной гауссовой функции  
    • mпост и Kпост вычисляются на основе y и K∗  
  • Дикий бутстрап

    • Подходит для моделей с гетероскедастичностью  
    • Остатки умножаются на случайную величину vя  
    • Используются различные формы vя  
  • Блочный бутстрап

    • Используется для коррелированных данных  
    • Разбивает данные на блоки и повторно выбирает внутри блоков  
    • Включает методы для временных рядов и кластерных данных  
  • Методы повышения вычислительной эффективности

    • Параллельная обработка для ускорения вычислений  
    • Пуассоновский бутстрап для независимости выборок  
    • Bag of Little Bootstraps для предварительной агрегации данных  
  • Выбор статистического показателя

    • Начальное распределение используется для доверительных интервалов  
    • Байесовские и оценки максимального правдоподобия предпочтительны при бесконечных выборках  
  • Получение доверительных интервалов

    • Начальное распределение параметра-оценщика используется для доверительных интервалов  
    • Желаемые свойства включают инвариантность преобразования и согласованность  
  • Уточнения и расширения

    • Уточнения основаны на скорости приближения вероятности покрытия к номинальному значению  
    • Методы различаются по точности аппроксимации  
  • Точность и скорость сходимости

    • Методы различаются по скорости сходимости критической точки начальной загрузки.  
    • Метод является корректным второго порядка, если скорость сходимости равна O(n^-3/2).  
  • Предвзятость и доверительные интервалы

    • Начальное распределение и выборка могут расходиться, что приводит к предвзятости.  
    • Процентильные доверительные интервалы подходят для симметричных распределений.  
    • Смещение в распределении начальной загрузки приводит к смещению доверительного интервала.  
  • Методы определения доверительных интервалов

    • Базовый bootstrap: эмпирические квантили из начального распределения параметра.  
    • Процентильный bootstrap: процентили распределения начальной загрузки.  
    • Обученный бутстрэп: квантили из распределения bootstrap t-критерия Стьюдента.  
    • Bootstrap с поправкой на смещение: корректирует смещение в дистрибутиве bootstrap.  
    • Ускоренный bootstrap: корректирует смещение и асимметрию в распределении bootstrap.  
  • Проверка гипотезы начальной загрузки

    • Эфрон и Тибширани предлагают алгоритм сравнения средних значений двух выборок.  
    • Создаются новые наборы данных, вычисляется статистика теста и повторяется несколько раз.  
  • Примеры применения

    • Сглаженный bootstrap: добавление шума для уменьшения дискретности распределения.  
    • Связь с другими методами повторной выборки: bootstrap отличается от jackknife и перекрестной проверки.  
    • U-статистика: создание статистики из n выборок с помощью среднего значения статистики по всем подвыборкам размера r.  
  • Асимптотическая теория

    • Bootstrap обладает желаемыми асимптотическими свойствами при определенных условиях.  
    • Стохастическая конвергенция: сходимость выборочных путей процесса начальной загрузки.  
    • Консистенция: оценка начальной загрузки является последовательной, если сходится с вероятностью к 0 при n → ∞.  
  • Асимптотическая функция распределения

    • G(τ, F0) является асимптотической функцией распределения Tn.  
    • τ является индексирующей переменной в функции распределения.  
    • P(Tn ≤ τ) = G(τ, F0).  
  • Согласованность относительно расстояния Колмогорова-Смирнова

    • Согласованность относительно расстояния Колмогорова-Смирнова облегчает проверку условий для согласованности статистических данных.  
    • Горовиц рекомендует использовать теорему Маммена для проверки условий.  
  • Начальная оценка кумулятивной функции распределения

    • Начальная оценка кумулятивной функции распределения оценивает эмпирическую кумулятивную функцию распределения.  
    • Tn сходится к стандартному нормальному распределению.  
  • Сильная согласованность

    • Сходимость по (внешней) вероятности называется слабой согласованностью.  
    • Сильная согласованность подразумевает сходимость почти наверняка.  
    • Слабая согласованность достаточна для большинства статистических приложений.  
  • Демонстрация согласованности с использованием центральной предельной теоремы

    • Центральная предельная теорема используется для демонстрации согласованности процедуры начальной загрузки.  
    • Рассматриваются независимые одинаково распределенные случайные величины с известным средним и дисперсией.  
    • Показывается, что P(n(X¯n∗ − X¯n)σ^n ≤ τ) → 0 в вероятности при n → ∞.  
  • Теорема Гливенко–Кантелли

    • Теорема Гливенко–Кантелли обеспечивает теоретическую основу для метода начальной загрузки.  

Полный текст статьи:

Бутстрэппинг (статистика)

Оставьте комментарий

Прокрутить вверх