Как вычислить похожесть строк?

Question

Alex Merfy @qxcoder

---

Как вычислить похожесть строк?

Всем доброго времени суток.
Есть 2+ массива (в каждом около 2к элементов) в них лежат схожие данные , например:
1. Россия. Крупный бизнес. Московская область, г. Подольск, ул. Макеева, д.14, кв. 2.
2. Russia - Бизнес > 100 сотрудников. М.O, Подольск, ул Макеева 14, 2.
3. РФ. Частный Бизнес (крупный) . Москва (область), Подольск, улица Макеева, дом 14, квартира 2.

Нужно на выходе получить процент похожести этих строк и выбрать максимально похожие. Алгоритмов и их реализаций много, посоветуйте, пожалуйста, метод, при котором, будет максимальное быстродействие и терпимая схожесть.
Т.е. нужно перебрать все элементы с первого, второго и последующих массивов и найти похожие + записать их в новый массив.

Заранее всем откликнувшимся спасибо и плюс в карму :)

П.С. Если есть готовые библиотеки решающие данную задачу, буду рад ссылкам.
П.С.С. Подходят решения как с MachineLearning, нейросетей, семантического анализа, либо алгоритмов на подобии Левенштейна (только более эффективных, либо в совокупности с ним).

Вопрос задан более трёх лет назад
525 просмотров

5 комментариев

Подписаться 6 Простой 5 комментариев

не ответ на ваш вопрос, но в некоторых частях, возможно пригодится - https://dadata.ru/
Roman, нет, спасибо за наводку))
#, спасибо, глянем)
qxcoder Поддерживаю # по поводу datata, к примеру вот этот их API - как раз то что вам нужно. Я пользовался в одном проекте - результаты отличные.

Answer 1 · 2019-05-30 20:06:38

Антон Шаманов @SilenceOfWinter Куратор тега PHP

та еще зажигалка...

similar_text — Вычисляет степень похожести двух строк

Ответ написан более трёх лет назад

1 комментарий

Как вычислить похожесть строк?

Войдите на сайт