Как вычислить похожесть строк?

Question

Alex Merfy @qxcoder

---

Как вычислить похожесть строк?

Всем доброго времени суток.
Есть 2+ массива (в каждом около 2к элементов) в них лежат схожие данные , например:
1. Россия. Крупный бизнес. Московская область, г. Подольск, ул. Макеева, д.14, кв. 2.
2. Russia - Бизнес > 100 сотрудников. М.O, Подольск, ул Макеева 14, 2.
3. РФ. Частный Бизнес (крупный) . Москва (область), Подольск, улица Макеева, дом 14, квартира 2.

Нужно на выходе получить процент похожести этих строк и выбрать максимально похожие. Алгоритмов и их реализаций много, посоветуйте, пожалуйста, метод, при котором, будет максимальное быстродействие и терпимая схожесть.
Т.е. нужно перебрать все элементы с первого, второго и последующих массивов и найти похожие + записать их в новый массив.

Заранее всем откликнувшимся спасибо и плюс в карму :)

П.С. Если есть готовые библиотеки решающие данную задачу, буду рад ссылкам.
П.С.С. Подходят решения как с MachineLearning, нейросетей, семантического анализа, либо алгоритмов на подобии Левенштейна (только более эффективных, либо в совокупности с ним).

Вопрос задан более трёх лет назад
535 просмотров

5 комментариев

Подписаться 6 Простой 5 комментариев

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 19 июл.
- 330 просмотров
3

ответа
PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 114 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 154 просмотра
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 530 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 470 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 198 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 231 просмотр
2

ответа
Показать ещё Загружается…

не ответ на ваш вопрос, но в некоторых частях, возможно пригодится - https://dadata.ru/
Roman, нет, спасибо за наводку))
#, спасибо, глянем)
qxcoder Поддерживаю # по поводу datata, к примеру вот этот их API - как раз то что вам нужно. Я пользовался в одном проекте - результаты отличные.

Answer 1 · 2019-05-31 10:59:09

Нашел на тостере решение, которое, возможно, подойдет идеально для моей задачи. Спасибо всем, кто откликнулся) Т.к. у меня строки имеют определенную структуру (последовательность), то думаю, что идеально подойдет такой вариант.
"Если же хотите именно сами все сделать, то надо составить базу всех городов, их синонимов, сокращений (Санкт-Петербург, Питер, СПб и т.д.) и перебирать. Потом добавить неточный поиск и исправление ошибок."

Порекомендовал его Boris Korobkov в посте (https://toster.ru/q/593468). И ему спасибо )

Answer 2 · 2019-05-30 20:06:38

Антон Шаманов @SilenceOfWinter Куратор тега PHP

та еще зажигалка...

similar_text — Вычисляет степень похожести двух строк

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2019-05-30 18:52:30

Получается, можно отделить описание от адреса. Поэтому проще будет получить гео координаты (например через https://tech.yandex.ru/maps/geocoder/) по адресу и если они одинаковые, считать строки похожими.

Более сложный вариант: написать простенький парсер адресов. Решать конфликты через однозначное совпадение по адресу.

Какую именно строку использовать из похожих, видимо неважно. Можно случайную, или самую длинную... Тут вам виднее.

Answer 4 · 2019-05-31 11:03:10

Для начала четко сформулируйте критерий похожести, без понимания задачи подобрать решение проще всего подбрасыванием монетки. Если это адреса, то как уже советовали прогнать через геокодер. И, например, считать похожими адреса в радиусе Х (чтобы вычесть квартиры, строения и прочее).

Как вычислить похожесть строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт