Как искать фразы в инвертированном индексе?

Question

pandaa @pandaa

Как искать фразы в инвертированном индексе?

На примере запроса "blue sky" поисковый индекс выдает все документы по слову blue и по слову sky. Дальше мы можем просто найти из этих документов одинаковые, и это и будут те документы на которых есть фраза blue sky.

Но выборка одинаковых документов это очень ресурсоемкая операция, потому что приходится перебирать их все, а это могут быть и миллионы разных документов

Вопрос задан более трёх лет назад
153 просмотра

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

13 комментариев

pandaa @pandaa Автор вопроса

Это антипаттерн. Прочитайте про инвертированный индекс

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, антипаттерн это не плохо. Это то что работает. Я потратил время на то чтобы вытрясти из специалистов по search'у подобную информацию. Так это работает в реальной жизни. Все остальное не перформит никак и очень дорого по тому что идут вычисления. Если очень надо последовательность слов то можно извратиться и представлять документы в виде связанных списков, но это уже абсолютно другие решения и подходы, не имеющие ничего общего с данным вопросом.

Еще раз, для закрепления, антипаттерн это не плохо. Паттерны, имеющиеся сегодня это наследие IT из 90х и монолитных проектов. Сегодня многие из них уже устарели не применяются по тому что не подходят для быстро изменяющихся проектов. Антипаттерны появились как то что не эффективно решало проблемы ранее, но сегодня ветер дует в другую сторону

Написано более трёх лет назад
pandaa @pandaa Автор вопроса

Иван Шумов, вы предлагаете хранить в Term все поисковые запросы? Какие специалисты по search'у вам сказали это? При новом уникальном запросе, не будет не какой информации, потому что не будет поля в Term и это будет происходить.

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, есть такой факт что задача поиска не выдавать всю информацию, а самую релевантную. С увеличением длины поисковой фразы число документов экспоненциально падает и после определенного значения практически не меняется. Самая большая длина полезной нагрузки фразы была что-то вроде 6 слов. Это предел. В мире поиска размер дискового пространства менее значим чем вычислительные ресурсы и время отклика. Term'ы создаются из документов, а не из запросов пользователей все-же. Не забываем что в мире search главную роль играет подготовка данных, которую проходят как документы так и поисковые запросы, где происходит вся магия и что является гарантией успеха

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, ну и в догонку - в тегах у вас указан MySQL, который в таких системах не используется по тому что он не нужен. Там используются key-value или nosql решения

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, посмотрите на ElastcSearch или Solr. Другие инструменты в этом мире сегодня не используются. Ну, за исключением таких проектов как Algolia. Я не в курсе что у них под капотом работает

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, поисковая фраза преобразовывается, бьется на все термы от максимального к минимальному, по им ищутся документы с соответствующими дермами и раздаются веса исходя из размера терма и частотности. Есть различные формулы для расчета от довольно старых до совсем новых и прогрессивных.

Написано более трёх лет назад
pandaa @pandaa Автор вопроса

Иван Шумов, Term'ы создаются не из документов, а из слов, см. Яндекс Поиск

Написано более трёх лет назад
Иван Шумов @inoise
pandaa, термы состоят из слов, но для генерации термов необходимо подготовить документ специфическим образом и разделить его на наборы слов длиной от 1 и до необходимого значения. Подготовка в себя включает проведение

в нижний регистр

в один и тот же род и число

исправление опечаток

на один язык

замена синонимов

чистка от слов с избыточной частотностью (предлоги, междометия, местоимения, слова предметной области вроде "доктор" в документе про докторов)

есть еще разные преобразования и я не помню уже как они называются правильным образом
Написано более трёх лет назад
pandaa @pandaa Автор вопроса

Иван Шумов, И что документы ищутся это и так ясно, про подготовку мне тоже можно не рассказывать, вопрос мой в том, как отбираются одинаковые документы из этих уже найденных по ключевым словам, чтобы были только те документы в которых содержатся вхождения всех заданных слов

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, а Я.П при публикации красивых "обучающих материалов" вечно забывает рассказать как на самом деле работают те механизмы о которых они пишут.

Написано более трёх лет назад
pandaa @pandaa Автор вопроса

Иван Шумов, Можете посмотреть в Google или в википедию о том, как поисковики хранят данные, если не нравится яндекс

Написано более трёх лет назад
Иван Шумов @inoise

pandaa, про фразы я уже ответил. Можно принять реальность или думать что есть какая-то волшебная магия. Если нужны не фразы , а просто все слова в определенном порядке то там идет первичная выборка по индексу и далее уже расчет веса исходя из порядка слов в документе. Это достигается, как я уже говорил, связанными списками с последовательностью термов, связанных последовательно и расчётом расстояния между термами. Это дорого и долго и нужны серьезные вычислительные мощности

Написано более трёх лет назад

4 комментария

Иван Шумов @inoise

Спасибо за поддержку)

маленькое уточнение:

два слова - два списка
их пересечение - обычный XOR, хз кто сказал что оно ресурсоемко

я говорил про упорядоченный поиск слов. одним XOR'ом тут не отделаться)

Написано более трёх лет назад
Dimonchik @dimonchik2013

упорядоченный - это вектора,

конечно, long tail и все такое - ну так на то он и Гугл... а в простеньких объявлениях - маркетплейсах не такие кластеры и большие

мы ж тут разжевываем лекцию, азы так сказать

Написано более трёх лет назад
Иван Шумов @inoise

dimonchik2013, а при чем тут сравнение маркетплейсов и гугла? принципы везде одни и те же. А для проектов ниже поисковых гигантов хватает эластика и алголии, где не надо даже близко понимать что такое Inverted Index

Написано более трёх лет назад
Dimonchik @dimonchik2013

для маркелпейсов алгоритмы почти не нужны

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 196 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 232 просмотра
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 563 просмотра
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 163 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 188 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 159 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 286 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 167 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 325 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 125 просмотров
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Answer 1 · 2020-06-29 17:06:12

Иван Шумов @inoise

Solution Architect, AWS Certified, Serverless

Term в таком случае должен составлять 2 слова. Никакой магии

Ответ написан более трёх лет назад

13 комментариев

Answer 2 · 2020-06-29 18:35:13

скачай
https://www.ozon.ru/context/detail/id/5497130/

есть отсканированная в сети
там ответы на все вопросы

изначально - все как и пишешь
индекс - это список документов в которое входит слова

два слова - два списка
их пересечение - обычный XOR, хз кто сказал что оно ресурсоемко

а вот уже чтобы ответ был РЕЛЕВАНТЕН - там дофига чего наворочено сверху, что Иван Шумов тебе и пытается объяснить

и да, в современном поиске индекс это список документов соответствующих ВЕКТОРУ запроса

никто его онлайн не делает - все просчитано заранее
онлайн только пытаются свести запрос к наилучшему (нескольким) заренее просчитанным векторам

Answer 3 · 2020-06-30 10:32:33

На примере запроса "blue sky" поисковый индекс выдает все документы по слову blue и по слову sky. Дальше мы можем просто найти из этих документов одинаковые, и это и будут те документы на которых есть фраза blue sky.

нет. Будут содержащие одновременно и blue, и sky. Но не лишь заданную фразу: blue sky.

Создавайте "дерево" связей всех слов (вектора следования) и ищите нужные "цепочки" (фразы) в этом "дереве" с любым максимальным "расстоянием".
При импорте нового документа - дополняйте/обновляйте "дерево" связей.

Как искать фразы в инвертированном индексе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт