Задать вопрос

Как вычислить похожесть строк?

Всем доброго времени суток.
Есть 2+ массива (в каждом около 2к элементов) в них лежат схожие данные , например:
1. Россия. Крупный бизнес. Московская область, г. Подольск, ул. Макеева, д.14, кв. 2.
2. Russia - Бизнес > 100 сотрудников. М.O, Подольск, ул Макеева 14, 2.
3. РФ. Частный Бизнес (крупный) . Москва (область), Подольск, улица Макеева, дом 14, квартира 2.

Нужно на выходе получить процент похожести этих строк и выбрать максимально похожие. Алгоритмов и их реализаций много, посоветуйте, пожалуйста, метод, при котором, будет максимальное быстродействие и терпимая схожесть.
Т.е. нужно перебрать все элементы с первого, второго и последующих массивов и найти похожие + записать их в новый массив.

Заранее всем откликнувшимся спасибо и плюс в карму :)

П.С. Если есть готовые библиотеки решающие данную задачу, буду рад ссылкам.
П.С.С. Подходят решения как с MachineLearning, нейросетей, семантического анализа, либо алгоритмов на подобии Левенштейна (только более эффективных, либо в совокупности с ним).
  • Вопрос задан
  • 525 просмотров
Подписаться 6 Простой 5 комментариев
Ответ пользователя Антон Шаманов К ответам на вопрос (4)
SilenceOfWinter
@SilenceOfWinter Куратор тега PHP
та еще зажигалка...
similar_text — Вычисляет степень похожести двух строк
Ответ написан