Минхаш
- MinHash — алгоритм для вычисления попарных сходств между множествами элементов.
- Алгоритм основан на использовании хэш-функций для определения случайной перестановки элементов.
- Оценка сходства основана на вероятности столкновения между элементами множества.
- MinHash имеет ожидаемую ошибку O(1/√k) и может быть вычислена за время O(k).
- Разработаны различные методы для введения весовых коэффициентов при вычислении мини-хэшей.
- MinHash имеет практические применения в кластеризации, устранении дублирующихся данных и интеллектуальном анализе данных.
- Алгоритм MinHash может рассматриваться как пример хеширования с учетом местоположения.
- Существуют другие методы хеширования, учитывающие локальность, для определения расстояния Хэмминга и косинусного расстояния.
- Google провела оценку производительности алгоритмов Minhash и SimHash и использовала их в различных приложениях.
Полный текст статьи: