Пользователь пока ничего не рассказал о себе

Наибольший вклад в теги

Все теги (3)

Лучшие ответы пользователя

Все ответы (2)
  • Как получить одинаковый хэш двух схожих строк?

    Donskoy
    @Donskoy
    Simhash или charikar's hash.
    Используется в гугле для поиска похожих документов. Легко переделывается для строк (в качестве фич берутся не биграммы-токены, а биграммы-символы).
    Подробный алгоритм здесь.
    Теоретическое обоснование – в статье «Similarity estimation techniques from rounding algorithms».
    Ответ написан
    Комментировать