Как найти частичные совпадения строки запроса в БД для полнотекстового поиска PostgreSQL?

Question

greefon @greefon

PostgreSQL

Как найти частичные совпадения строки запроса в БД для полнотекстового поиска PostgreSQL?

Задача: при поиске вида "alpha beta gamma ... omega" получать результаты с частичным совпадением (т.е. найдено только одно слово, или несколько слов из запроса) и ранжировать всё это с учетом найденного количества слов и их близости. Больше совпадений - выше ранг. Слова ближе друг к другу - выше ранг.

Вопрос задан более трёх лет назад
1685 просмотров

6 комментариев

Подписаться 1 Средний 6 комментариев

ayazer @ayazer

это https://www.postgresql.org/docs/9.5/textsearch.html уже прочитали?

Написано более трёх лет назад
Akina @Akina

ayazer, наверное, всё же разумнее давать ссылку на документацию по актуальной версии: https://www.postgresql.org/docs/current/textsearch.html

Написано более трёх лет назад
greefon @greefon Автор вопроса

ayazer, читал. Вот смотрите, такой запрос:

мультфильм Норштейн "Ежик в тумане",

любой парсер в tsquery заменит пробелы на & (кроме парсера websearch, который сделает исключение на фразы в кавычках, там он расставит <->). & мне определенно не подходит, потому что я хочу найти "Ежик в тумане", даже если рядом не упомянут Норштейн. Значит я должен заменить пробелы на I (OR), не заменяя их внутри кавычек, потому что кавычки хорошее средство показать "близость". Т.е. сделать свой препарсер, который будет отдавать потом запрос в нормальный парсер, который обрежет словоформы.

Или есть способ проще? Или я вообще что-то не то предлагаю? Ну ок. Допустим.

Дальше это нужно ранжировать. У нас OR, и я не очень понимаю, как будут распределяться веса. Т.е. будут ли несколько совпадений весить больше, чем одно? Ведь у нас не &, а I.

Написано более трёх лет назад
freeExec @freeExec

greefon, А дальше накапливаете статистику, какое слово для пользователя важнее. И парсер свой писать придётся, и интерпретацию результатов поиска и много чего ещё. Или вы думаете гуглояндексы работают на стоковом открытом ПО?

Написано более трёх лет назад
greefon @greefon Автор вопроса

freeExec, я много чего думаю, зачем вы так сразу. Например, мне казалось, что поиск с частичным совпадением должен нормально работать "из коробки". Это не какая-то магия, а скорее основной сценарий практически для любого применения. Ну да не важно. Хотелось бы на описание алгоритма посмотреть на PostgreSQL, как такое вообще делается, не тратя время на эксперименты.

Написано более трёх лет назад
freeExec @freeExec

greefon, Так он вам и предоставляет из коробки операторы &, |, ! что вам ещё не хватает?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер

5 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 241 просмотр
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 135 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 264 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 318 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 257 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 633 просмотра
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 288 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 366 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 192 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Почему Postgre через pg_stat_activity не показывает запросы?
- 2 подписчика
- 26 дек. 2025
- 178 просмотров
0

ответов
Показать ещё Загружается…

Middle Java Developer

ИТРУМ • Ростов-на-Дону

от 150 000 ₽

VibeCoder / Platform Engineer (Node.js / Kubernetes)

Fabrique • Москва

До 220 000 ₽

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

это https://www.postgresql.org/docs/9.5/textsearch.html уже прочитали?
ayazer, наверное, всё же разумнее давать ссылку на документацию по актуальной версии: https://www.postgresql.org/docs/current/textsearch.html
ayazer, читал. Вот смотрите, такой запрос:

мультфильм Норштейн "Ежик в тумане",

любой парсер в tsquery заменит пробелы на & (кроме парсера websearch, который сделает исключение на фразы в кавычках, там он расставит <->). & мне определенно не подходит, потому что я хочу найти "Ежик в тумане", даже если рядом не упомянут Норштейн. Значит я должен заменить пробелы на I (OR), не заменяя их внутри кавычек, потому что кавычки хорошее средство показать "близость". Т.е. сделать свой препарсер, который будет отдавать потом запрос в нормальный парсер, который обрежет словоформы.

Или есть способ проще? Или я вообще что-то не то предлагаю? Ну ок. Допустим.

Дальше это нужно ранжировать. У нас OR, и я не очень понимаю, как будут распределяться веса. Т.е. будут ли несколько совпадений весить больше, чем одно? Ведь у нас не &, а I.
greefon, А дальше накапливаете статистику, какое слово для пользователя важнее. И парсер свой писать придётся, и интерпретацию результатов поиска и много чего ещё. Или вы думаете гуглояндексы работают на стоковом открытом ПО?
freeExec, я много чего думаю, зачем вы так сразу. Например, мне казалось, что поиск с частичным совпадением должен нормально работать "из коробки". Это не какая-то магия, а скорее основной сценарий практически для любого применения. Ну да не важно. Хотелось бы на описание алгоритма посмотреть на PostgreSQL, как такое вообще делается, не тратя время на эксперименты.
greefon, Так он вам и предоставляет из коробки операторы &, |, ! что вам ещё не хватает?

Answer 1 · 2021-12-25 14:23:46

Т.е. сделать свой препарсер, который будет отдавать потом запрос в нормальный парсер, который обрежет словоформы.

на моем опыте - любое использование полнотекстового поиска (будь это еластик, солр или встроенный в постгрес) именно этим и заканчивалось. Рано или поздно все-равно возникает необходимость сделать что-то большее чем "взять запрос от пользователя и передать дальше". Начиная от банального "выделить ключевые слова чтоб они в результатах поиска имели больший вес", "этот пользователь не может видеть некоторых результатов" или "затереть все что похоже на пароль" и заканчивая "тут на самом деле поиск по частично структуированым данным, потому для части запросов мы можем вообще другой скл генерировать"

Дальше это нужно ранжировать. У нас OR, и я не очень понимаю, как будут распределяться веса

если тут нужно МНОГО специфических настроек - лучше сразу смотреть в сторону того-же солра. В постгресе все-же поддержка полнотекстового поиска постолько-поскольку. Для многих задач ее хватает, но я в свое время страдал т.к. постоянно натыкался на стену "а так сделать нельзя". Но в целом хоть как-то постгрес ранжирует +есть возможность ручками подправить веса для ключевых частей. Т.е. для примера

select json_flat_content , ts_rank_cd(json_flat_tsv, 'jzvmw | julva | qxqvh | name | value') r
from my_fulltext_index i
where
	i.json_flat_tsv @@ to_tsquery('simple', 'jzvmw | julva | qxqvh | name | value')
order by r desc

вернет

[{"name": "qtmlx", "value": "jzvmw  vajwq julva  ipsmwtbhki  lhgzr"}, {"name": "fslto", "value": "viykw"}]	0.6
[{"name": "lhnhq", "value": "sxgxh!!daxrh guxux!!kfgtirmgig!!ivqwz"}, {"name": "qxqvh", "value": "qbeli"}]	0.5
[{"name": "cepja", "value": "mrfma"}, {"name": "gwjqa", "value": "csxaf"}]	0.4
[{"name": "val", "value": "TNhmT<KxERm"}]	0.2

ну и да, для запроса "мультфильм | Норштейн | Ежик <-> тумане" может понадобится ручками указать меньший вес для "мультфильм" и больший для "Норштейн". И заодно подумать что делать если в поиске из-за очепятки будет "орНштейн"

+ стоит обратить внимание что постгрес (по крайней мере версии 9.5 и 10.? с которыми я работал) плохо работал с нграмами. а точнее - для этого нужно было ставить доп. плагины и потом все это собирать в кучу. т.е. по"сло:*" найти "слово" можно, но по "ово" найти "слово" - уже нет.

+ возможно нужна будет работа с очепятками

+ я не помню умеет ли постгрес работать с синонимами. Это может быть тоже важно

в целом как для быстрого и сердитого прототипирования - полнотекстовый поиск в постгресе удобно использовать. Но если нужен серьезный полнотекстовый поиск - лучше смотреть на инструменты которые на это заточены

Как найти частичные совпадения строки запроса в БД для полнотекстового поиска PostgreSQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт