Как осуществить поиск неточных совпадений по MySQL?

Question

MikUrrey @MikUrrey

Как осуществить поиск неточных совпадений по MySQL?

Приветствую!
Как осуществить подобного рода поиск по MySQL и реально ли это вообще?

Строка поиска: г Санкт-Петербург, тер Авиагородок
Строка в таблице: Авиагородок, Санкт-Петербург

Строка поиска: г Санкт-Петербург, тер. снт Торики
Строка в таблице: Торики, Красносельский р-н, Санкт-Петербург

Строка поиска: г Санкт-Петербург
Строка в таблице: Санкт-Петербург

Строка поиска: г Москва, Воскресенское п, п Воскресенское
Строка в таблице: Воскресенское поселение, Московская обл.

Плюс, нужно ранжировать - при запросе г Москва результат Москва должен иметь приоритет над результатами Десеновское, Москва и Бутово Южное, Москва.

И т. п., записей около 16 тыс., поиск производится один раз на каждого уника (проект не хайлоад, нишевый интернет-магазин).
Пробовал колдовать с FULLTEXT-поиском, но пока ничего дельного не вышло.
Рассматривается применение сторонних модулей - Sphinx, Elastic, может, даже nosql базы для каких-то промежуточных операций, но рабочей БД проекта является именно MySQL.
Сейчас главное - понять, в какую сторону копнуть.

Всем спасибо, в итоге удалось написать свой алгоритм, основанный на простых условиях и утверждении, что сегменты адреса в наших данных находятся в обратном порядке относительно исходного адреса.
Запрос разбивается по запятым, вырезаются все типы (р-н, район, обл, АО, г, поселок, хутор, снт и .п.), "разворачивается", затем последовательно производится поиск: город+район+регион, город+регион, город. Поиск останавливается на уровне, на котором появился результат.

Вопрос задан более трёх лет назад
788 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

6 комментариев

MikUrrey @MikUrrey Автор вопроса

ДаДата, к сожалению, не справилась. Пришлось всё-таки написать свой алгоритм.

Написано более трёх лет назад
Александр @MrLongMan

MikUrrey, с какими трудностями вы столкнулись? Любопытно ваше решение

Написано более трёх лет назад
zhaar @zhaar

MikUrrey, а мне любопытно, с чем не справилось :)

Написано более трёх лет назад
MikUrrey @MikUrrey Автор вопроса
Александр, ДаДата временами отрезает части запроса, но не сообщает об этом, и, к тому же, часто выдает слишком подробный адрес, вплоть до улицы и дома.
Решение описал в самом вопросе, внизу.
Далее по условиям просто формирую запросы типа:
SELECT * FROM dadata_addresses WHERE `source` LIKE 'Алхимово%' AND `source` LIKE '%Московская%'

Конечно, точность не 100%, но близка к этому.
Написано более трёх лет назад
Александр @MrLongMan

MikUrrey, Ну если только проект не будет разрастаться, потому что LIKE "%exp%" это зло

Написано более трёх лет назад
MikUrrey @MikUrrey Автор вопроса

Александр, данная таблица разрастаться точно не будет. К тому же, скорее всего, это временное решение. Потому что сам список будет оптимизироваться.

zhaar, в основном не получилось из-за такого:
Осиновая Роща, Санкт-Петербург = г Санкт-Петербург, п Парголово, ул Осиновая (Осиновая Роща) - Дадата при возможности дает слишком подробные для моей задачи данные.
Так же встречается отсечение части адресов без уведомления о возможных проблемах (приходит статус "Адрес распознан уверенно"). Но над этим уже пообещали поработать сами дадатовцы.

Написано более трёх лет назад

6 комментариев

MikUrrey @MikUrrey Автор вопроса

Я как раз и упомянул Sphinx как возможное решение, но, увы, не работал с ним раньше. Поэтому и хотел уточнить у более опытных коллег, действительно ли он поможет справиться с поставленной задачей.

Так вот, если без воды и по делу, то какие методы/флаги/опции нужно скомбинировать, чтобы получить необходимый результат?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

Скормите вашу табличку сфинксу, постройте индекс и пользуйтесь.
Настроек там довольно дофига, но сложно угадать какие из них вам полезны.

Написано более трёх лет назад
MikUrrey @MikUrrey Автор вопроса

Stalker_RED, а угадывать не надо, я несколько примеров привел. Они четко показывают характер совпадения всех 15800 строк. Если примерно представляете, как это обработает Сфинкс, набросайте немного. Буду благодарен.

Написано более трёх лет назад
Adamos @Adamos

MikUrrey, вообще-то с адресами есть еще один метод работы - по КЛАДР / ФИАС.
Но, например, Почта России при всех имеющихся у нее базах адресов при приведении произвольной строки к адресу временами лажает зверски. И Яндекс на своих картах - тоже.
А Сфинкс вам будет находить не совсем то, что вам надо, а то, что похоже по содержанию ключей. Скорее всего, на многие запросы будет несколько ответов, похожих по тексту. Находится ли это похожее хотя бы в одной области с искомым - это вам никакой современный ИИ не скажет....

Написано более трёх лет назад
MikUrrey @MikUrrey Автор вопроса

Adamos, а мы попробовали сперва прогнать список через ДаДату. И даже их платный сервис "Стандартизация адресов" справился на троечку с минусом, а цель была - как раз связать табличку по ФИАС ID с их же данными от метода detectAddressByIp.

Написано более трёх лет назад
Adamos @Adamos

MikUrrey, по произвольно написанному адресу - это задача принципиально нерешаемая.
С ней и человек-то на сто процентов не справляется, куда там компьютеру.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 131 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 107 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 363 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 247 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 223 просмотра
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 451 просмотр
4

ответа
Показать ещё Загружается…

Answer 1 · 2019-06-25 22:12:10

косил Косой косой косой

в Мускуле таких чудесов нету, быть не может, и появится не раньше лет через 15

копайте в стороу как Убер, 2GIs и тот же Яндекс решают эту проблему, если по взрослому ( всякие Entity namig recogntion, Тамита парсер, вектора на стеммированых ковордах и т.п.)

по-детски можно составить алгоритмичеки ( с элементами взрослого) таблицу нормализации:

п Воскресенское =>Воскресенское поселение
Воскресенское п =>Воскресенское поселение

и т.д.

Answer 2 · 2019-06-26 22:35:12

Возможно вам поможет "нормализация" от различных сторонних API, аля dadata. На вашей стороне хранить нормализированный вариант, а через API dadata приводить к нормальному виду запрос от клиента.

Answer 3 · 2019-06-25 22:56:23

Ну, так и рассматривайте зрелые модули поиска, а не изобретение велосипедов, которые все равно будут неудачнее, да еще и потребуют больше времени на поддержку и доработки.
Теоретически вроде бы и работы немного: разобрать тексты, в которых будешь искать, на базу ключей и искать по ним... но практически тот же Сфинкс это уже умеет делать без танцев с бубном, а что вам еще надо?

Answer 4 · 2019-06-26 06:15:27

Когда-то давным давно в древности, написал ответ-простыню на похожий вопрос. Самая эффективная реализация в номинации "из говна и палок".

Как осуществить поиск неточных совпадений по MySQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт