Как грамотно сделать поиск номерной информации с помощью Sphinx?

Question

becks @becks

Sphinx

Как грамотно сделать поиск номерной информации с помощью Sphinx?

Есть rt-индекс. Сейчас морфология настроена на лемматизацию 3 основных языков (рус, англ, нем):

morphology	 = lemmatize_ru, lemmatize_en, lemmatize_de

В ближайшее время будут добавлены настройки обработки и других языков, но уже по стемме (французский, итальянский и т.д.). Сейчас поиск по ключевым словам выполняется просто замечательно. Возникла задача поиска номерной информации. Что в данном случае может являться номерной информацией:
1) 423452352364265 - просто какая-то последовательно цифр
2) 42-3452352(36426)5 последовательность с различными разделителями

Какой функционал поиска по номерной информации необходим:

1) Полное совпадение:
Предположительный пример запроса

SELECT * FROM rt_index where match('423452352364265');

2) Начинается с:
Предположительный пример запроса SELECT * FROM rt_index where match('42345*');
3) Содержит:
Предположительный пример запроса SELECT * FROM rt_index where match('*523642*');
4) Заканчивается на:
Предположительный пример запроса SELECT * FROM rt_index where match('*265');

В результатах этих запросов я хотел бы получать обе представленные выше записи.
Поскольку я буду использовать индекс, построенный по лемме и стемме, то поиск по звездочке (*), как я понимаю, работать не будет. Ну и даже, если бы можно было использовать *, индекс бы разросся неимоверно.

Какое вижу единственное решение. Делать предобработку текста, доставать всю номерную информацию, чистить от разделителей и укладывать в соседнее поле. Настроить еще один индекс (стемма, поиск по звездочке) на поиск только по данному полю. При номерном поиске - искать только в данной колонке. Топорное решение, но скорее всего будет работать. Опять же возникает некоторая проблема с сопоставлением преобразованного номера с номером в тексте.

Может есть другие более элегантные решения?

Вопрос задан более трёх лет назад
2613 просмотров

5 комментариев

Подписаться 1 Оценить 5 комментариев

Андрей Панов @PanovAndrey

Добрый день. А что символизирует этот номер? Один ли он на запись? Селективность запроса какая?

Написано более трёх лет назад
becks @becks Автор вопроса

Андрей Панов: Добрый день. Номер может символизировать все что угодно (телефон, идентификатор сотрудника, код страны, все что угодно). Номера встречаются в тексте. Их может быть несколько в одном тексте, а может не быть совсем.Т.е. номера никак не размечены. Селективность скорее всего очень низкая.

Написано более трёх лет назад
Андрей Панов @PanovAndrey

becks: А какого размера индекс и насколько быстро растёт?

Написано более трёх лет назад
becks @becks Автор вопроса

Андрей Панов: Сейчас только тестируемся, изучаем возможность, ориентировочно десятки Гигабайт

Написано более трёх лет назад
becks @becks Автор вопроса

becks: Про рост сказать ничего детального сказать не могу. Опять же, допустим, 5 ГБ месяц (старое что-то удаляем).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
Sphinx

Простой
Возможно ли настроить wordforms в Manticore с добавлением нескольких синонимов к указанному слову, а не только один?
- 1 подписчик
- 06 окт. 2025
- 95 просмотров
1

ответ
Sphinx

+1 ещё

Простой
Не ставится Sphinx в виртуальной машине Bitrix 7.5.5?
- 1 подписчик
- 14 авг. 2025
- 72 просмотра
0

ответов
Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- более года назад
- 374 просмотра
1

ответ
Linux

+2 ещё

Простой
Как установить Sphinx на Alma Linux 9?
- 1 подписчик
- более года назад
- 182 просмотра
4

ответа
PHP

+1 ещё

Средний
Как заставить sphinxsearch 3.6.1 выводить несколько полей?
- 1 подписчик
- более года назад
- 107 просмотров
2

ответа
1С-Битрикс

+1 ещё

Сложный
Как сделать чтобы sphinx выдавал сперва точные совпадения а потом остальные?
- 1 подписчик
- более года назад
- 210 просмотров
1

ответ
Sphinx

Простой
Какие существуют ограничения на количество записей у real time индексов manticoresearch?
- 6 подписчиков
- более двух лет назад
- 375 просмотров
0

ответов
CentOS

+1 ещё

Простой
Почему SPHINX не стартует после остановки какой-то службы?
- 1 подписчик
- более двух лет назад
- 140 просмотров
1

ответ
Sphinx

Средний
Почему текстовое поле из real time индекса пустое при запросе?
- 1 подписчик
- более двух лет назад
- 65 просмотров
1

ответ
Показать ещё Загружается…

Добрый день. А что символизирует этот номер? Один ли он на запись? Селективность запроса какая?
Андрей Панов: Добрый день. Номер может символизировать все что угодно (телефон, идентификатор сотрудника, код страны, все что угодно). Номера встречаются в тексте. Их может быть несколько в одном тексте, а может не быть совсем.Т.е. номера никак не размечены. Селективность скорее всего очень низкая.
becks: А какого размера индекс и насколько быстро растёт?
Андрей Панов: Сейчас только тестируемся, изучаем возможность, ориентировочно десятки Гигабайт
becks: Про рост сказать ничего детального сказать не могу. Опять же, допустим, 5 ГБ месяц (старое что-то удаляем).

Как грамотно сделать поиск номерной информации с помощью Sphinx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт