Кластеризация на основе модели
-
Основы кластеризации на основе моделей
- Кластеризация на основе моделей — это метод группировки данных на основе вероятностных распределений.
- Кластеры формируются путем максимизации вероятности принадлежности данных к кластерам.
- Метод включает в себя использование ковариационных матриц для определения кластеров.
-
История и развитие
- Кластеризация на основе моделей была изобретена в 1950 году Полом Лазарсфельдом для дискретных данных.
- В 1959 году Джон Х. Вульф предложил модель гауссовой смеси для кластеризации непрерывных данных.
- Мурта и Рафтери разработали метод кластеризации на основе моделей, основанный на разложении ковариационных матриц.
- Маклахлан и Басфорд опубликовали первую книгу, посвященную этому подходу.
- Банфилд и Рафтери ввели термин «кластеризация на основе моделей» и представили программное обеспечение mclust.
- Celeux и Govaert показали, как выполнить оценку максимального правдоподобия для моделей.
-
Программное обеспечение
- Кластеризация на основе моделей широко представлена в программном обеспечении R.
- Пакет mclust используется для кластеризации непрерывных данных и загружен более 8 миллионов раз.
- Пакет poLCA предназначен для кластеризации категориальных данных с использованием модели скрытого класса.
- Пакет clustMD кластеризует смешанные данные, включая непрерывные, двоичные, порядковые и номинальные переменные.
- Пакет flexmix и mixtools выполняют кластеризацию на основе модели с использованием ковариат.
-
Дальнейшее чтение
- Для более глубокого изучения кластеризации на основе моделей рекомендуется книга «Кластеризация на основе моделей: теория и практика».
- Статья доступна для бесплатного скачивания на сайте math.univ-cotedazur.fr.