Минхэш

Минхаш MinHash — алгоритм для вычисления попарных сходств между множествами элементов.  Алгоритм основан на использовании хэш-функций для определения случайной перестановки […]

Минхаш

  • MinHash — алгоритм для вычисления попарных сходств между множествами элементов. 
  • Алгоритм основан на использовании хэш-функций для определения случайной перестановки элементов. 
  • Оценка сходства основана на вероятности столкновения между элементами множества. 
  • MinHash имеет ожидаемую ошибку O(1/√k) и может быть вычислена за время O(k). 
  • Разработаны различные методы для введения весовых коэффициентов при вычислении мини-хэшей. 
  • MinHash имеет практические применения в кластеризации, устранении дублирующихся данных и интеллектуальном анализе данных. 
  • Алгоритм MinHash может рассматриваться как пример хеширования с учетом местоположения. 
  • Существуют другие методы хеширования, учитывающие локальность, для определения расстояния Хэмминга и косинусного расстояния. 
  • Google провела оценку производительности алгоритмов Minhash и SimHash и использовала их в различных приложениях. 

Полный текст статьи:

Минхэш — Википедия

Оставьте комментарий

Прокрутить вверх