Оценка максимального правдоподобия
-
Оценка максимального правдоподобия (MLE)
- Метод оценки параметров распределения вероятностей на основе наблюдаемых данных
- Максимизация функции правдоподобия для нахождения наиболее вероятных параметров
-
Логика и свойства MLE
- Интуитивно понятен и гибок
- Эквивалентен максимальной апостериорной оценке в байесовском выводе
- Частный случай оценки экстремума в частотном выводе
-
Принципы MLE
- Моделирование данных как случайной выборки из неизвестного распределения
- Определение параметров, максимизирующих функцию правдоподобия
-
Оценка плотности и функция правдоподобия
- Функция правдоподобия как произведение одномерных функций плотности
- Максимизация функции правдоподобия для нахождения параметров
-
Ограниченное пространство параметров
- Включение дополнительных ограничений в процесс оценки
- Метод подстановки для решения задачи ограниченной оптимизации
-
Непараметрическая оценка максимального правдоподобия
- Использование эмпирического правдоподобия для непараметрической оценки
-
Свойства MLE
- Согласованность: сходимость к оцениваемому значению при увеличении размера выборки
- Равновариантность: инвариантность к биективным преобразованиям
- Эффективность: достижение нижней границы Крамера–Рао при бесконечном размере выборки
- Эффективность второго порядка после коррекции на смещение
- Консистенция: согласованность при определенных условиях
-
Согласованность и условия
- Согласованность достигается при соблюдении условий идентификации, компактности, непрерывности и доминирования.
- Условие идентификации устанавливает, что разные значения параметра θ соответствуют разным распределениям.
- Компактность подразумевает, что вероятность не может сколь угодно близко приблизиться к максимальному значению.
- Непрерывность означает, что функция lnf(x | θ) непрерывна в θ.
- Доминирование устанавливает, что существует интегрируемое по отношению к распределению f(x | θ0) такое, что |ln f(x | θ)| < D(x) для всех θ ∈ Θ.
-
Функциональная инвариантность и эффективность
- MLE выбирает значение параметра, которое максимизирует вероятность данных.
- MLE является эквивариантным по отношению к преобразованиям данных.
- MLE сходится по распределению к нормальному распределению и асимптотически эффективен.
-
Эффективность второго порядка
- MLE имеет смещение порядка 1/√n.
- Смещение можно скорректировать, вычитая его, что дает оценку максимального правдоподобия с поправкой на смещение.
- Оценка максимального правдоподобия с поправкой на смещение эффективна во втором порядке.
-
Связь с байесовским выводом
- MLE совпадает с наиболее вероятной байесовской оценкой при равномерном предварительном распределении параметров.
- Байесовская оценка получается путем максимизации функции правдоподобия.
-
Применение в байесовской теории принятия решений
- MLE используется в байесовской теории принятия решений для минимизации общего ожидаемого риска.
- Правило принятия решений Байеса минимизирует ошибку по всему распределению.
-
Решающее правило Байеса
- Решающее правило Байеса можно переформулировать как нахождение максимального правдоподобия (MLE) для параметров модели.
- MLE максимизирует вероятность, что асимптотически эквивалентно нахождению распределения вероятностей, минимизирующего дивергенцию Кульбака-Лейблера.
-
Связь с минимизацией дивергенции Кульбака-Лейблера и перекрестной энтропии
- MLE минимизирует дивергенцию Кульбака-Лейблера, что эквивалентно минимизации перекрестной энтропии.
- Перекрестная энтропия — это энтропия Шеннона плюс дивергенция KL, и MLE асимптотически минимизирует её.
-
Примеры дискретного равномерного распределения
- Оценка максимального правдоподобия для n в случае равномерного распределения равна числу m на выбранном билете.
- Ожидаемое значение n^ равно (n + 1)/2, что приводит к систематическому занижению n на (n − 1)/2.
-
Примеры дискретного распределения с конечными параметрами
- В случае монеты с неизвестной вероятностью выпадения орла, оценка максимального правдоподобия равна 2/3.
- В случае одной монеты с вероятностью выпадения орла от 0 до 1, оценка максимального правдоподобия равна 49/80.
-
Примеры непрерывного распределения с непрерывным пространством параметров
- Для нормального распределения с параметрами μ и σ, оценка максимального правдоподобия для μ равна μ^, а для σ^2 — предвзята.
- Оба оценщика последовательны, но σ^2 предвзята для σ^2.
-
Несамостоятельные переменные
- Переменные могут быть коррелированы, что требует использования совместной функции плотности вероятности.
- В многомерном случае функция правдоподобия определяется с использованием общей плотности.
-
Определение и ограничения
- Вероятность появления каждой коробки равна pя, с ограничением p1 + p2 + … + pm = 1.
- Xя не являются независимыми, совместная вероятность вектора x1, x2, …, xm называется многочленным.
-
Логарифмическая вероятность и множители Лагранжа
- Логарифмическая вероятность равна:
- Необходимо учитывать ограничение и использовать множители Лагранжа.
-
Итеративные процедуры
- Уравнения правдоподобия не могут быть решены явно, используются итеративные процедуры.
- Методы оптимизации включают градиентный спуск и метод Ньютона-Рафсона.
-
Градиентный спуск
- Метод градиентного спуска требует вычисления градиента, но не обратной производной второго порядка.
- Вычислительно быстрее, чем метод Ньютона-Рафсона.
-
Метод Ньютона-Рафсона
- Требует вычисления матрицы Гессе, что требует больших вычислительных затрат.
- Альтернативные методы включают алгоритм Берндта-Холла-Хаусмана и квазиньютоновские методы.
-
Квазиньютоновские методы
- Используют более сложные секущие обновления для аппроксимации матрицы Гессе.
- Примеры: формула Дэвидона-Флетчера-Пауэлла и алгоритм Бройдена-Флетчера-Гольдфарба-Шанно.
-
Результат Фишера
- Замена матрицы Гесса информационной матрицей Фишера.
- Алгоритм подсчета очков Фишера используется в обобщенных линейных моделях.
-
История и развитие
- Метод максимального правдоподобия был создан Рональдом Фишером в 1912-1922 годах.
- Теорема Уилкса доказана в 1938 году, обеспечивая асимптотическую точность оценок.
-
Связанные понятия и методы
- Информационный критерий Акаике, экстремальный оценщик, информация Фишера, среднеквадратичная ошибка.
- RANSAC, теорема Рао-Блэквелла, теорема Уилкса.
- Другие методы оценки: обобщенный метод моментов, M-оценка, максимальная апостериорная оценка, оценка максимального расстояния, оценка максимальной энтропии, метод моментов, метод поддержки, оценка минимального расстояния, методы частичного правдоподобия, оценка квазимаксимального правдоподобия, ограниченное максимальное правдоподобие.