Как получить одинаковый хэш двух схожих строк?

Question

blare @blare

Как получить одинаковый хэш двух схожих строк?

К примеру, есть две схожие строки:

Москва, ул. Васюковская 12

Москва, ул. Васюковая 121

Нужно чтобы хэш их был одинаковый. Подскажите есть ли подобные алгоритмы?

Вопрос задан более трёх лет назад
10153 просмотра

2 комментария

Подписаться 9 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 20

Комментировать

3 комментария

blare @blare Автор вопроса

Применение не обязательно к адресам. Это может быть что угодно.
Хэши могут отличаться, но так, что бы была возможность при задании некого коэффициента схожести говорить, что эти строки одинаковые.

Написано более трёх лет назад
bachin @bachin

Тогда стоит определиться что значит «коэффициент схожести»
Например, «Васюковская улица» и «ацилу яаксвокюсаВ» — совсем несхожие строки, а состоят из одинаковых букв. То есть формально они схожие.
Рассматриваем вашу задачу формально — строки являются схожими, если одна переводится в другую заменой не более N символов, убиранием не более M символов и вставлением не более K символов.
При N = 4, M = 3, K = 3 строка «счастье» будет равна строке «жопа»
Какие у вас коэффициенты?

Написано более трёх лет назад
blare @blare Автор вопроса

можно учитывать и порядок букв.
Я же не привожу свой алгоритм, у меня нет коэфициентов, мне интересно есть ли уже существующий, чтобы не изобретать велосипед

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 742 просмотра
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 548 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 619 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1342 просмотра
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 728 просмотров
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 877 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 599 просмотров
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 314 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Показать ещё Загружается…

Основное условие: строки сравнивать нельзя.
В качестве сравниваемых строк могут быть не адреса

Answer 1 · 2012-08-02 00:16:59

Simhash или charikar's hash.
Используется в гугле для поиска похожих документов. Легко переделывается для строк (в качестве фич берутся не биграммы-токены, а биграммы-символы).
Подробный алгоритм здесь.
Теоретическое обоснование – в статье «Similarity estimation techniques from rounding algorithms».

Answer 2 · 2012-08-01 12:35:13

barker @barker

см. расстояние Левенштейна.

А хеш одинаковый это вряд ли, конечно…

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-08-01 14:17:49

Не получится, слишком много неопределенностей, особенно без сравнения строк, для примера


Васюковая -> Масюковая -> Масюковае -> Масюковое -> Масуковое -> Мосуковое -> Мозуковое -> Мозуговое -> Мозугавое -> Мозугадое

Каждое слово схоже с следующим, и следовательно должено иметь одинаковый хэш, но разница между первым и последним уже огромная.

Answer 4 · 2012-08-01 13:02:26

Совсем без сравнений, как мне кажется, нельзя. Если нет возможности сравнивать входящие данные, сравнивайте выходящие — сами хэши.

Answer 5 · 2012-08-01 13:26:17

выкидываем из строки все цифры (+пробелы, +знаки препинания).
от остального считаем хэш любым алгоритмом (CRC32, MD5, etc)
ваши строки сматчатся в одно значение.
вы этого хотели?
если нет — потрудитесь объяснить что значит «схожие строки» — на мой взгляд это совсем разные строки — дом 12 по улице Васюковской — это 8-подъездная многоэтажка, а дом 121 — это ветхая хибара.

Answer 6 · 2012-08-01 12:52:13

Уточните вопрос
Вам нужен конкретный алгоритм, возвращающий одинаковый хэш для двух этих конкретных строк (и не важно что для всех остальных)?
Или вам нужен генератор алгоритмов хэш-функций, которому на вход дают две строки, а генератор генерирует такой алгоритм хэширования, чтобы для этих заданных строк получалась коллизия (и опять не важно, что там получится для всех остальных)?

Answer 7 · 2012-08-01 12:55:36

Можно пробовать хеш функцию, которая является суммой всех символов div С, где С — константа, большая (например,100). Тогда с высокой долей вероятности, строки, которые отличаются на 1-2 символа будут попадать в один хеш.

В общем случае, для адресов не спасает расстояние Левенштейна, и не спасают какие либо хеш — функции.

Answer 8 · 2012-08-01 13:58:10

Вначале их нужно привести к какому-то одинаковому виду
Разбить строку по словам, привести к одному регистру, выкинуть малозначительное и неуникальное, типа «ул.», знаки препинания и прочее.
Слить слова в строку, вида «москва васюковская» «москва васюковая», взять фонетический код, получится, например, 479465.
С цифрами несколько непонятно, какие будут варианты. Но в данном случае — выкинуть все повторы и оставить только цифры, входящие в номер как первой строки, так и второй.

Таким образом у нас получится две одинаковые строки (если фонетический код совпадет) вида

«479465 12»
«479465 12»

Можно вычислять хэш.

Answer 9 · 2012-08-01 14:19:57

AR1ES @AR1ES

Подобный вопрос: stackoverflow.com/questions/10599401/hashing-similar-strings-to-same-hash-value

Ответ написан более трёх лет назад

1 комментарий

Answer 10 · 2012-08-02 00:26:18

Не думали насчет алгоритмов нечеткого поиска, как, например, Soundex или метафон? Готовая имплементация есть в Apache Codec, алгоритмы Metaphone и Metaphone 2.

Смотрите вот здесь. Онлайн демка (работает судя по всему только с латиницей).

Answer 11 · 2012-08-02 08:30:01

Я когда-то думал над подобным способом для поиска слов с опечатками. Одним хешем тут точно не обойтись, и вот почему. Допустим (упростим задачу), все слова имеют одинаковую длину, например, 4 символа, мы хотим, чтобы у слов, различающихся 1 буквой, был одинаковый хеш. Тогда слова abcd и abce имеют одинаковый хеш, слова abcd и zbcd имеют одинаковый хеш… в итоге, все слова будут иметь один и тот же хеш.

Потому, одним хешем тут не обойтись. Нужно как минимум, несколько.

Например, хеш для всех букв, кроме первой. Хеш для всех, кроме второй, и т.д. Тогда у различающихся 1 буквой слов будут 2 совпадающих хеша.

Или другой подход — разбиение слов на триграммы и поиск по ним. У похожих слов большинство триграмм будет одинаковыми.

Answer 12 · 2012-08-01 12:42:26

Напишите функцию, которая примет a='Москва, ул. Васюковская 12 ' и b='Москва, ул. Васюковая 121' и вернет true для определенных условий (что-то вроде дом начинается одинаково && первые 5-6 символов улиц начинаются/заканчиваются одинаково && одинаковый город). Тогда берите все части, которые совпали и берите по ним хэш.
Скажем, для данного примера возьмите хэш по выделенной строке:
Москва, ул. Васюковская 12
Москва, ул. Васюковая 121

Тут кол-во коллизий не так уж и мало.
Этот алгоритм был выдуман сразу после прочтения, и вероятнее всего есть куда более элегантные решения.

Answer 13 · 2012-08-01 13:13:48

Нет. Как вы себе представляете работу такой функции? А если дом 122? Или 21? Тоже одинаковый хэш должен быть? А если улица «Масюковская» — тоже? А когда он должен делаться неодинаковый?

Есть фонетическое индексирование, которое выдает одинаковый хеш для слов, которые произносятся примерно одинаково — вполне возможно, что подобная функция для русского языка выдала бы одинаковый результат для «Васюковская» и «Васюковая», но не для всего адреса. Есть триграмный индекс для поиска похожих строк, но это не хэш.

Answer 14 · 2012-08-01 13:14:51

Вообще, вопрос противоречит сам себе.
Насколько я помню, одна из основных особенностей (требований или хз как назвать) хэша заключается в том, что он должен выдавать совершенно разные значения даже для максимально близких строк.

А так алгоритмов реальных не знаю, но если писать очередной велосипед, то TheHorse предложил то же, что и мне в голову. Я бы только дополнил немного, что полученное число я бы использовал не как хэш, а для инициализации генератора случайных чисел и из него бы уже вытягивал хэш нужной длины.

Answer 15 · 2012-08-01 13:15:10

Вообще, вопрос противоречит сам себе.
Насколько я помню, одна из основных особенностей (требований или хз как назвать) хэша заключается в том, что он должен выдавать совершенно разные значения даже для максимально близких строк.

А так алгоритмов реальных не знаю, но если писать очередной велосипед, то TheHorse предложил то же, что и мне в голову. Я бы только дополнил немного, что полученное число я бы использовал не как хэш, а для инициализации генератора случайных чисел и из него бы уже вытягивал хэш нужной длины.

Answer 16 · 2012-08-01 13:15:37

Вообще, вопрос противоречит сам себе.
Насколько я помню, одна из основных особенностей (требований или хз как назвать) хэша заключается в том, что он должен выдавать совершенно разные значения даже для максимально близких строк.

А так алгоритмов реальных не знаю, но если писать очередной велосипед, то TheHorse предложил то же, что и мне в голову. Я бы только дополнил немного, что полученное число я бы использовал не как хэш, а для инициализации генератора случайных чисел и из него бы уже вытягивал хэш нужной длины.

Answer 17 · 2012-08-01 15:07:07

Вомзожно можно оптимизировать алгоритм шинглов, только вместо слов использовать n-ое кол-во символов.

Answer 18 · 2012-08-01 18:39:49

Dilon @Dilon

В свое время довелось использовать ssdeep.sourceforge.net/ для похожей задачи.

Ответ написан более трёх лет назад

1 комментарий

Answer 19 · 2012-08-01 23:31:54

Мдя… А зачем вам такая функция?
Функция «хэш» характерна минимальными коллизиями.
Вам, по-видимому, в задаче нужна другая функция. Например «индекс».

Answer 20 · 2012-08-02 00:21:48

Если нужно сравнивать имена собственные, то вместо Левенштейна лучше подходит Jaro-Winkler distance.
Эта метрика была разработана для поиска имен с похожим написанием (или с ошибками в написании) при переписи населения в США.

Answer 21 · 2012-08-08 21:45:53

Ryadovoy @Ryadovoy

Смотри метод Хеширование по сигнатуре + расстояние Левенштейна
habrahabr.ru/post/114997/

Ответ написан более трёх лет назад

Комментировать

Как получить одинаковый хэш двух схожих строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт