Как сравнить строки на похожесть?

Question

Валерий В. @OlegOleg1980

программист

Алгоритмы

Как сравнить строки на похожесть?

Добрый день!
Подскажите, пожалуйста, алгоритм сравнения строк (текста) на похожесть.
Оговорюсь сразу, прочитал достаточно статей с того же Хабра на эту тему, много там математики и очень уж сложно все. Да и ресурсозатратно тоже.
И напротив - такие методы как similar_text() или levenshtein() тоже не очень подходят, ибо показывают плохой результат в случае простой перестановки слов в строке.
Хотелось бы найти готовый алгоритм, а еще лучше уже написанный метод на php, js или каком другом языке, который будет и не очень сложен и затратен, но и в то же время достаточно точен в оценке.

P.S. В этой сфере не специализируюсь, поэтому навскидку сразу не могу найти нужный материал.

Спасибо!

Вопрос задан более трёх лет назад
7065 просмотров

18 комментариев

Подписаться 6 Средний 18 комментариев

sim3x @sim3x

https://en.wikipedia.org/wiki/Levenshtein_distance...

Зачем указано пхп и жс одновременно?

Написано более трёх лет назад
Александр Опарин @losse_narmo

И напротив - такие методы как similar_text() или levenshtein() тоже не очень подходят, ибо показывают плохой результат в случае простой перестановки слов в строке.

Можно попробовать использовать алгоритм не на уровне букв, а на уровне слов (токенов). При этом уменьшить (или обнулить) вес обмена слов

Написано более трёх лет назад
Kovalsky @lazalu68

"js levenshtein distance"/"php levenshtein distance"

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега Алгоритмы

Уточните, что вы называете похожестью. Смысловое содержание текстов или их буквальное совпадение?

На сколько от 0 до 1 похожи «Мама мыла раму» и «Раму мыла мама»? И насколько «возьмите пол-стакана сахара» и «используйте 50 грамм сахара»?

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

sim3x, для сравнения.
И я же писал выше, что я читал материалы по данной тематике.
Я прошу конкретную реализацию.

Написано более трёх лет назад
h8nor @honor8

будет и не очень сложен и затратен, но и в то же время достаточно точен в оценке
0_o технический (искусственный) или разговорный (естественный) язык?

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Никита Полевой, аналогично выше сказанному.
Что означает ваш текст?

Написано более трёх лет назад
Kovalsky @lazalu68

Валерий В., в гугле тысячи реализаций алгоритма расчета расстояния Левенштейна и на пыхе, и на JS.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Александр Опарин, как вариант.
Будет что то похоже на метод использования шинглов.

Написано более трёх лет назад
sim3x @sim3x

Валерий В., те за вас поискать алгоритм, без вашего датасета?

Звучит как стремное задание

Дайте хоть свой набор текстов для проверки

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Дѣаволъ, язык разговорный, т.е. ошибки в написании и все тому сопутствующее...

Написано более трёх лет назад
h8nor @honor8

будет и не очень сложен и затратен, но и в то же время достаточно точен в оценке
Разговорный русский или английский?
Скажу проще - в русском языке исключений столько, что с одним лингвистом не разберёшь.
Но помечтать никто не запрещает :3

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Сергей Соколов, не простое.
Будет еще анализ. Разные типы анализа.
Сейчас я ищу простой, скажем так, первичный фильтр.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

sim3x, ну не надо так прям буквально. Проще надо быть :)
Просто есть люди, которые такой же темой занимались ранее, вот они то и знают хорошо подводные камни различных реализаций алгоритмов, включая всем известный Левенштейна.
И хотелось бы услышать мнение этих людей, а не теоретиков от Гугла, умеющих только в ссылки тыкать...

Написано более трёх лет назад
sim3x @sim3x

Валерий В.,
Нет, людей работающих с вашим датасетом - нет

Практики работают со своим набором данных и композировать несколько алгоритмов
И выбирать решение по метрике

У нас сейчас нет ни датасета, ни метрики, ни даже примерного описания

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Дѣаволъ, ну всем же известно, что только из мечты рождается что-то действительно стоящее :) Банальщины и серости и так хватает...
По сабжу - ну по любому кто-то реализовывал промежуточные варианты с уклоном в ту или иную сторону(сложности или точности), так что может повезет и найду такую реализацию.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

sim3x, будьте добры - несколько практических примеров готовой реализации, чтобы более предметно разговаривать. А то может быть я действительно ошибаюсь, и совсем не то имею ввиду.

Написано более трёх лет назад
Nomad_77 @Nomad_77

Можете посмотреть здесь.

Написано более трёх лет назад

Решения вопроса 2

1 комментарий

14 комментариев

Валерий В. @OlegOleg1980 Автор вопроса

Какая досада ... (с)

Если б я сам до конца понимал эти критерии..
Пока в стадии формирования.
Результат видится как то так: текст похож на 87%
А уж как он будет считаться - по количеству букв, слов, лексем, токенов, шинглов, и бог его знает еще чего - не знаю.
Поэтому и ищу информацию которая подскажет как лучше что использовать.

В споре рождается истина (с)

Написано более трёх лет назад
Андрей Федосеев @itlen

С таким образом поставленной задачей не получится работать, увы )

Рифмы — тоже похожие строки. Так что порог и критерии «похожести» это половина решения, останется только подобрать метод из уже готовых: нечеткий поиск для опечаток как предлагали выше, LSI или word2vec для смысловой/тематической похожести, фонетическая и т.д. Может вам вообще подойдет простая эвристика.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Андрей Федосеев, я это понимаю, что критерии - главная часть задачи.
Но т.к. не специалист, сложно с чего то начать.
Спасибо за наводку вариантов :) будем гуглить

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

кстати, я думаю, для начала мне хватит и similar_text() или levenshtein(), но как заставить их правильно работать с перестановкой слов?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Валерий В., что такое "правильно работать"? Вы серьезно хотите чтобы мы сперва угадали какие у вас требования, а затем дали под них ответ?

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Stalker_RED, не нужно гадать. Просто предложите свой вариант, опыт работы с которым у вас есть. Представьте, что я - нейросеть. И вы мне накидываете варианты для обучения сети (т.е. меня). Я просмотрю предложенные варианты и определю по ним критерии дальнейшего поиска. И уже тогда смогу задать правильные вопросы. Собственно, для этого и создаются такие ресурсы как Тостер etc. И таки да, поясню для Гуглоссылателей - если не знаешь, что конкретно искать, там можно перелопатить тонны материала, и - ничего не найти!

P.S. Отдельное спасибо всем, кто не поленился и кинул ссылки на материалы или дал конкретные советы.

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Валерий В., а смысл, если вы на любой алгоритм скажете "много математики", "все сложно"? Про Левенштейна и шинглы вы уже знаете, можно запросто и по альтернативам пройтись: https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D...

Но в этой области нет ничего простого, так чтобы в три строчки кода уложиться. Если конкретизировать свои хотелки вы не собираетесь, то и краткого пересказа содержимого википедии тоже не будет.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Stalker_RED, ну перестаньте же...
Если у вас машина стала плохо ехать, вы же не начинаете учить молекулярную химию топлива или внутреннее устройство программ электронных блоков управления? Вы просто меняете заправку или целиком блок.
Вот и мне не нужно в самые дебри лезть - я думаю есть много уже готовых подобных реализаций. И тот, кто занимался тем же самым - имел те же вопросы что и у меня.

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Валерий В., есть некоторое количество алгоритмов сравнения текстов, их по пальцам можно пересчитать. Есть огромное количество модификаций этих алгоритмов, типа "тонкая настройка", всякие хитрые веса и параметры.
Вы взяли две стандартные библиотечные функции, немножко потестировали и сказали что они работают "не правильно". Ну ок.

И тот, кто занимался тем же самым - имел те же вопросы что и у меня.
Ну как-бы да, имел похожие вопросы. Оторвал жопу от стула, побщался с теми кто ставил задачу, узнал чего именно они хотят, какие метрики для них важны, а какие не очень. потом под эти требования искал решение.
А фигачить наугад без включения башки - желаю удачи, но без меня.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Stalker_RED, это у вас профессиональное - выдавать ваше личное представление за действительное?
Я же о другом говорю совсем. Или вы просто не хотите слышать.
Задачу я ставлю сам себе. И я не знаю как правильно сформулировать критерии. Чтобы правильно поставить задачу. Ибо не специалист. И именно поэтому я пришел сюда, чтобы задать свои вопросы тут. А вы мне в ответ - какой я умный, все знаю, но вам не скажу ничего и не помогу ничем, потому что вы не знаете что нужно. Это я про вас. А другие здесь писавшие тоже не знают что мне нужно, но пытаются дать мне хоть какую-то информацию. И спасибо им за это, я хоть начинаю понимать, какую информацию мне надо искать.
Поэтому вам алаверды - последняя ваша фраза. Но в отношении к вам уже.

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Валерий В., Вот так из двух строчек текста мы тут понаписали уже на два экрана какой-то воды.

кстати, я думаю, для начала мне хватит и similar_text() или levenshtein(), но как заставить их правильно работать с перестановкой слов?

Вы можете вот это объяснить? Я верю что вы не можете правильно сформулировать критерии, но хоть немного вы можете пролить свет на то, какое поведение вы ожидаете?

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Вы можете вот это объяснить?
Вот это вы можете объяснить?
Вот этовы можете объяснить?
Вот это вы может объяснить?
Вот это можете объяснить?
Это можете объяснить?
Это можете объяснить

Это все должно давать один результат - похоже.

Написано более трёх лет назад
Андрей Федосеев @itlen

Валерий В., лол )
убираете знаки препинания, приводите слова к одному регистру, сортируете слова в фразе по алфавиту, убираете предлоги или просто 3х-буквенные. Или не убираете, а приписываете им коэфициент за "вклад в похожесть". Берете шинглы Х длины, где X 1/2 от количества слов в фразе. Или 1/3, 1/5, подбираете вес «похожести» в общем.

Пример за минуту придумал, но тут копать можно много.

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Андрей Федосеев, спасибо.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

3 комментария

Валерий В. @OlegOleg1980 Автор вопроса

Ну скажем так - при желании я сам смогу это организовать.
Я же поэтому и ищу - "простой" - вариант, чтобы не так точно как в профессиональном подходе, но в то же время и без особых затрат (материальных и других) реализовать простую обработку сравнения.

Написано более трёх лет назад
Александр Таратин @Taraflex

Валерий В., Куда уж проще, чем я описал. В сотню строк легко можно уложиться, если речь о js или php. Я привел алгоритм, который реально использовал в одном из проектов на с++ (там конечно побольше кода это заняло + порядок слов все-таки учитывался, то есть не было этапа сортировки). Суть была в компенсации неточности OCR распознавания. Работает достаточно быстро.
В вашем случае последний и частично предпоследний этап можно перенести на сторону БД - будет еще быстрее. https://habrahabr.ru/post/342434/

Написано более трёх лет назад
Валерий В. @OlegOleg1980 Автор вопроса

Александр Таратин, я читал эту статью. Для моего решения на данный момент слишком сложно. Что-то полезное оттуда взять можно.

Написано более трёх лет назад

3 комментария

4 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 173 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 150 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 279 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 475 просмотров
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 91 просмотр
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 125 просмотров
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 167 просмотров
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 251 просмотр
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 274 просмотра
1

ответ
C#

+1 ещё

Простой
Почему моя реализация Shaker Sort-а такая медленная?
- 2 подписчика
- 17 мая
- 621 просмотр
1

ответ
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

https://en.wikipedia.org/wiki/Levenshtein_distance...

Зачем указано пхп и жс одновременно?
И напротив - такие методы как similar_text() или levenshtein() тоже не очень подходят, ибо показывают плохой результат в случае простой перестановки слов в строке.

Можно попробовать использовать алгоритм не на уровне букв, а на уровне слов (токенов). При этом уменьшить (или обнулить) вес обмена слов
Уточните, что вы называете похожестью. Смысловое содержание текстов или их буквальное совпадение?

На сколько от 0 до 1 похожи «Мама мыла раму» и «Раму мыла мама»? И насколько «возьмите пол-стакана сахара» и «используйте 50 грамм сахара»?
sim3x, для сравнения.
И я же писал выше, что я читал материалы по данной тематике.
Я прошу конкретную реализацию.
будет и не очень сложен и затратен, но и в то же время достаточно точен в оценке
0_o технический (искусственный) или разговорный (естественный) язык?
Никита Полевой, аналогично выше сказанному.
Что означает ваш текст?
Валерий В., в гугле тысячи реализаций алгоритма расчета расстояния Левенштейна и на пыхе, и на JS.
Александр Опарин, как вариант.
Будет что то похоже на метод использования шинглов.
Валерий В., те за вас поискать алгоритм, без вашего датасета?

Звучит как стремное задание

Дайте хоть свой набор текстов для проверки
Дѣаволъ, язык разговорный, т.е. ошибки в написании и все тому сопутствующее...
будет и не очень сложен и затратен, но и в то же время достаточно точен в оценке
Разговорный русский или английский?
Скажу проще - в русском языке исключений столько, что с одним лингвистом не разберёшь.
Но помечтать никто не запрещает :3
Сергей Соколов, не простое.
Будет еще анализ. Разные типы анализа.
Сейчас я ищу простой, скажем так, первичный фильтр.
sim3x, ну не надо так прям буквально. Проще надо быть :)
Просто есть люди, которые такой же темой занимались ранее, вот они то и знают хорошо подводные камни различных реализаций алгоритмов, включая всем известный Левенштейна.
И хотелось бы услышать мнение этих людей, а не теоретиков от Гугла, умеющих только в ссылки тыкать...
Валерий В.,
Нет, людей работающих с вашим датасетом - нет

Практики работают со своим набором данных и композировать несколько алгоритмов
И выбирать решение по метрике

У нас сейчас нет ни датасета, ни метрики, ни даже примерного описания
Дѣаволъ, ну всем же известно, что только из мечты рождается что-то действительно стоящее :) Банальщины и серости и так хватает...
По сабжу - ну по любому кто-то реализовывал промежуточные варианты с уклоном в ту или иную сторону(сложности или точности), так что может повезет и найду такую реализацию.
sim3x, будьте добры - несколько практических примеров готовой реализации, чтобы более предметно разговаривать. А то может быть я действительно ошибаюсь, и совсем не то имею ввиду.

Answer 1 · 2017-11-29 17:25:12

Anton Filippov @vicodin

Имею некоторый опыт

Как «допустить» ошибку в поисковом запросе?

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2017-11-29 17:36:31

Для начала критерии «похожести» огласите.
А то «Казнить нельзя, помиловать» оч похожа на прямо противоположную.

Answer 3 · 2017-11-29 17:19:53

Вариант для ограниченного словаря слов.
-Составляем массив всех слов из текстов, поиск по которым будем вести. Каждое слово обрабатываем стеммером. Выкидываем короткие основы. Оставляем в массиве только уникальные основы.
-Каждую строку по которой будем искать превращаем в массив, состоящий из индексов основ слов в словаре. Сортируем массив.
-Аналогично делаем со строкой которую будем искать. Так как в ней могут быть новые слова, чтобы найти индекс основы слова в словаре, ищем основу с наименьшим левенштейном по отношению к данной основе слова. Сортируем массив.
-Теперь похожесть текстов можем сравнивать, как длинну разности массивов индексов.

Answer 4 · 2017-11-29 17:54:36

asd111 @asd111

Попробуй python.

from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2017-11-29 19:46:41

duck_nukem @duck_nukem

делай распознавание нейросетью

Ответ написан более трёх лет назад

4 комментария

Answer 6 · 2017-11-29 22:03:18

Как на счёт расстояния Левенштейна и прочие модификации данного алгоритма? Потом накидывать уже свой алгоритм под нужды: порядок/отсутствие слов и т.д.

Answer 7 · 2020-02-16 05:32:39

RuWeb @RuWeb

Вот https://textcompare.ru/

Ответ написан более трёх лет назад

1 комментарий

Как сравнить строки на похожесть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт