Как сделать поиск который понимает суть запроса?

Question

M @vodnicear

Как сделать поиск который понимает суть запроса?

На сайте есть много категорий, например автомобили, запчасти, мобильные телефоны, недвижимость.
Задача сейчас стоит такая: нужно сделать поиск который будет понимать запрос и будет настраивать фильтры для данного запроса. То есть поиск не должен искать ключевые слова в заголовке и описание товара, а должен настраивать фильтры чтоб найти нужный товар.

Приведу несколько примеров:

красный айфон в Москве - система должна понимать что айфон относиться к категорий мобильных телефонов, производитель Apple, цвет красный тоже должен выбираться в отдельном фильтре, а в Москве относиться к фильтру местоположения, соотвественно выбираем страну Россия - Московская область
bmw e39 в Японий - выбирается категория автомобили, производитель Bmw, модель 5 серия, год производства 1996-2003, местонахождение страна Япония

таких примеров можно привести еще очень много, но думаю суть задачи ясна
характеристики всех товаров есть в базе данных

сейчас нужно сделать подсказки для поиска, то есть стоит задача преобразовать поисковой запрос в несколько вариантов поиска, один из которых выберет пользователь

но вопрос в том как это технически реализовать? в проекте уже используется elasticsearch, думаю тоже в нем создать индекс где будут все характеристики товаров, места, категорий и туда-же еще добавить какие-то кастомные запросы которые будут создавать администраторы

на сколько ли правильный такой подход? может у кого есть идей или опыт в реализации такой задачи
буду благодарен за любые полезные материалы или советы!

UPDATE: добавлю еще что сайт имеет много языков, и исправление ошибок в поисковом запросе рассматривается как отдельная задача, сейчас думаем только над тем как преобразовать запрос в настройки фильтра

Вопрос задан более трёх лет назад
1150 просмотров

4 комментария

Подписаться 16 Сложный 4 комментария

Василий Банников @vabka

соотвественно выбираем страну Россия - Московская область

Москва - это самостоятельный субъект федерации. Почему выбирается МО, если это уже другой субъект с совсем другими географическими границами, который даже не включает в себя Москву?

модель 5 серия, год производства 1996-2003

Откуда он должен это понять, если в запросе этого нет?

Написано более трёх лет назад
M @vodnicear Автор вопроса

Василий Банников, на счет Москвы - согласен
а на счет e39 есть вот такая иерархия из параметров

соотвественно в фильтр generation есть упоминание про e39, а дальше идем вверх по цепочке и выбираем предыдущие значения фильтров

думаю для каждой опции хранить в Elasticsearch всех ее родителей с парами id фильтра - id значения

Написано более трёх лет назад
d'Ivan @2ord

Что нового по теме? Нашлось ли решение (может, компромиссное)?

Написано более двух лет назад
Василий Банников @vabka

Valeriu Vodnicear, вообще с учётом развития языковых моделей - можно попытаться посмотреть в сторону поиска с использованием их.

По идее с хорошим промптом и передачей нужного контекста вполне можно будет такое парсить.

пы сы: в теории даже SaaS не обязательно трогать. Попробовал например в gemma2 такое запустить, но нужно с промптами играться, чтобы давал то что нужно и не лил воду

>>> Пользователь сделал поисковой запрос "bmw e39 в Японий". Что пользователь ищет? Напиши максимально подробно и струк
... турировано. Если это автомобиль, то укажи полное именование, модельный ряд, поколение, рестайлинг, и годы выпуска
Пользователь ищет информацию о BMW E39, который планирует приобрести в Японии.

**Детально:**

* **BMW:** Производитель автомобилей - Bayerische Motoren Werke AG (Баварские моторные заводы)
* **E39:** Внутренний индекс модели BMW 5 серии, который обозначает четвертое поколение этой модели.
* **В Японии:** Пользователь интересуется приобретением автомобиля именно в Японии, что может указывать на:

* Желание найти редкую или хорошо сохранившуюся модель E39.
* Возможность купить автомобиль по более низкой цене, чем в других странах.
* Интерес к японскому авторынку и его особенностям.

**Технические характеристики BMW E39:**

* **Модель:** BMW 5 series (пятая серия)
* **Поколение:** Четвертое (E39)
* **Годы выпуска:** 1995 - 2003
* **Рестайлинг:** Прошел в 1999 году, изменив дизайн передней части, задних фонарей и интерьера.

**Дополнительные сведения:**

Пользователь может искать информацию о:

* Доступных модификациях E39 в Японии (бензиновые, дизельные, с автоматической или механической коробкой передач)
* Ценных экземплярах E39 (низкий пробег, оригинальное состояние, редкие комплектации)
* Специфике импорта автомобилей из Японии
* Отзывах владельцев E39, приобретенных в Японии

Для более точного понимания запроса пользователя, можно уточнить:

* Цель покупки (личное пользование, коллекционирование, перепродажа).
* Бюджет пользователя.
* Требования к состоянию автомобиля.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

4 комментария

M @vodnicear Автор вопроса

а томита умеет извлекать семантику на других языках? у нас много языков в проекте
и после извлечения семантики нужно же еще как-то преобразовать это все в фильтры (а с этим сложность)

Написано более трёх лет назад
Максим Бабичев @REZ1DENT3

Valeriu Vodnicear, последний раз томиту использовал в 2016 году. На сколько помню, возможность была (да и в исходниках есть https://github.com/yandex/tomita-parser/blob/b27ab...). В любом случае, без экспериментов вам не обойтись.

https://github.com/yandex/tomita-parser/blob/maste...

Написано более трёх лет назад
uvelichitel @uvelichitel

Максим Бабичев, посвятил неделю попыткам скомпилировать томиту. Безуспешно. В репозитариях ubuntu, debian пакета нет. Для arch linux есть в AUR но не заводится. Скомпилировать из исходников по инструкции из README не удалось, ни мастер ни форки. Yandex перестал поддерживать репо уже лет 10. Задавал вопрос здесь https://qna.habr.com/q/1236826 , работающего рецепта не получил.
Где взять то его - томита парсер? Может быть подскажете)

Написано более трёх лет назад
Максим Бабичев @REZ1DENT3

uvelichitel, Собирается с этими пакетами. Не вижу проблем, чтобы собрать dockerfile с необходимыми либами/пакетами и системой. Пример был для тревис https://github.com/yandex/tomita-parser/blob/maste...

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 90 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Какую нейронку с API и web поиском можете посоветовать?
- 1 подписчик
- 01 мар.
- 177 просмотров
1

ответ
Поисковая оптимизация

+3 ещё

Простой
Как продвинуть сайт в поиске?
- 2 подписчика
- 25 февр.
- 712 просмотров
4

ответа
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 141 просмотр
0

ответов
Поисковые системы

Простой
Эффективны ли программы, защищающие фото и видеофайлы от систем поиска по лицу?
- 1 подписчик
- 11 янв.
- 195 просмотров
3

ответа
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент. 2025
- 250 просмотров
0

ответов
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- более года назад
- 917 просмотров
2

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- более года назад
- 340 просмотров
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- более года назад
- 156 просмотров
3

ответа
Показать ещё Загружается…

соотвественно выбираем страну Россия - Московская область

Москва - это самостоятельный субъект федерации. Почему выбирается МО, если это уже другой субъект с совсем другими географическими границами, который даже не включает в себя Москву?

модель 5 серия, год производства 1996-2003

Откуда он должен это понять, если в запросе этого нет?
Василий Банников, на счет Москвы - согласен
а на счет e39 есть вот такая иерархия из параметров

соотвественно в фильтр generation есть упоминание про e39, а дальше идем вверх по цепочке и выбираем предыдущие значения фильтров

думаю для каждой опции хранить в Elasticsearch всех ее родителей с парами id фильтра - id значения
Что нового по теме? Нашлось ли решение (может, компромиссное)?

Answer 1 · 2023-05-01 17:34:43

Для этого необходимо, чтобы анализатор мог производить разбор частей речи языка, как минимум.
Тогда анализатор будет понимать смысл речи и извлекать нужные компоненты.
Есть технология NER.

Answer 2 · 2023-05-01 16:25:07

Смотри в сторону томита парсера, который умеет извлекать семантику из предложения.
Исходный код открыт: https://github.com/yandex/tomita-parser
Пример простой семантики: https://github.com/yandex/tomita-parser/blob/maste...

Answer 3 · 2023-05-04 18:43:16

Краем уха читал что умный поиск строится на многомерных векторах. Для каждого запроса строится многомерный вектор, а затем в проиндексированных данных ищется вектор с наименьшим углом к искомому. Копните в эту сторону.

P. S. Погуглил из интереса, оказывается даже ничего делать не надо, уже есть готовые решения, пусть они и платные https://searchbooster.io/ru/

Answer 4 · 2023-05-11 15:21:27

Вы решаете задачу, которую решает Гугл, в целом.
в общем, путь, по которому можно пойти:

1/ прикрутить к вашей поисковой строке расстояние Левенштейна и искать совпадения. Уже будет работать. Плоховато, но лучше, чем ничего.
2/ Посчитать tf-idf на ваших документах и смотреть, что ввел пользователь. Будет работать значительно лучше
3/ построить w2v: каждому слову будет дан эмбеддинг (векторное представление), косинусные расстояния между векторами будут обозначать похожесть слов (синонимическую)
4/ Прикрутить Берт-подобные модели. Если сайт не какой-то специфический, можно даже не доучивать на вашем корпусе.
4 итерация - это, по сути, "предгенеративный" шаг. Потом начинаются большие языковые модели (типа огромного Ялма) и всякие вопросно-ответные системы типа чатЖПТ.

Как сделать поиск который понимает суть запроса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт