10к строк по базе размером 500кк?

Question

setupx @setupx

Go & TS developer

PostgreSQL

10к строк по базе размером 500кк?

Есть вот такая база

CREATE TABLE base
(
    id       BIGSERIAL PRIMARY KEY,
    url      text NOT NULL,
    login    text NOT NULL,
    name text NOT NULL
);

Какими способами можно ускорить поиск по совпадениям url/login/name?
Некоторые индексы вообще отказываются применяться: размер строки индекса (3432) больше предельного для btree версии 4 размера (2704) (индекс "idx_base_url") (SQLSTATE 54000)

Условно в БД есть записи в url со словом login: "cloudflare.com/login", "login.test.com", и мне нужно реализовать поиск по таким столбцам и на выходе получить не более 10к строк не более чем за 10 секунд.

P.S: если нужно: на бэке используется Golang
P.S2: кэшировать данные не вариант, т.к после поиска строк человеком, эти строки удаляются

Вопрос задан более года назад
336 просмотров

4 комментария

Подписаться 3 Простой 4 комментария

Akina @Akina

поиск по совпадениям url/login/name

Пожалуйста, покажите конкретный запрос (или запросы), о котором идёт речь.
Также укажите максимальный размер данных в каждом из полей (в байтах).

PS. Если поиск идёт по точному совпадению - то индексируйте хэш и ищите по нему. Ну и проверяйте на коллизии, если хэш короткий.

Написано более года назад

setupx @setupx Автор вопроса

Akina, Запрос

SELECT * FROM base WHERE domain LIKE '%habr%' LIMIT 10000;

Про размеры точно сказать не могу.
Текущая БД, которая используется:

CREATE TABLE base
(
    id       BIGSERIAL PRIMARY KEY,
    domain   VARCHAR(255) NOT NULL,
    uri      TEXT         NOT NULL,
    login    text         NOT NULL,
    name   text         NOT NULL
);

Написано более года назад

Dmitry Bay @kawabanga

setupx,
А почему у вас
uri / login / name - это TEXT?
при этом domain - varchar ?

Написано более года назад
setupx @setupx Автор вопроса

Dmitry Bay, домены же не такие большие. впринципе проблема решена. спасибо

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 88 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 353 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 171 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 333 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 349 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 802 просмотра
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 318 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 387 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 217 просмотров
0

ответов
Показать ещё Загружается…

поиск по совпадениям url/login/name

Пожалуйста, покажите конкретный запрос (или запросы), о котором идёт речь.
Также укажите максимальный размер данных в каждом из полей (в байтах).

PS. Если поиск идёт по точному совпадению - то индексируйте хэш и ищите по нему. Ну и проверяйте на коллизии, если хэш короткий.
Akina, Запрос

SELECT * FROM base WHERE domain LIKE '%habr%' LIMIT 10000;

Про размеры точно сказать не могу.
Текущая БД, которая используется:

CREATE TABLE base ( id BIGSERIAL PRIMARY KEY, domain VARCHAR(255) NOT NULL, uri TEXT NOT NULL, login text NOT NULL, name text NOT NULL );
setupx,
А почему у вас
uri / login / name - это TEXT?
при этом domain - varchar ?
Dmitry Bay, домены же не такие большие. впринципе проблема решена. спасибо

Answer 1 · 2024-08-29 21:14:40

Запрос

SELECT * FROM base WHERE domain LIKE '%habr%' LIMIT 10000;

Какой это нахрен поиск "по совпадениям"??? Это, блин, поиск по подстроке!!! причём в любом месте строки.

С таким шаблоном поиска можете с обычными индексами вообще не трахаться, по причине абсолютной бессмысленности действа. Читайте про GIN, GiST, RUM и прочие виды индексов и поиск с их использованием.

Answer 2 · 2024-08-29 22:20:41

SELECT * FROM base WHERE domain LIKE '%habr%' LIMIT 10000;

проще всего так, наверно:

CREATE EXTENSION pg_trgm;

CREATE INDEX trgm_domain_base_idx ON base USING GIST (domain gist_trgm_ops);

EXPLAIN ANALYZE SELECT * FROM base WHERE domain LIKE '%habr%' LIMIT 10000;

https://www.postgresql.org/docs/current/pgtrgm.html

Answer 3 · 2024-08-29 17:48:15

Первое, что приходит в голову - разделить домен и URI. Тогда можно будет сначала поискать по индексу доменов, а потом уже эту выборку по урлу.

Answer 4 · 2024-08-29 17:50:25

индекс по like %login% не будет применяться. нужно добавить колонку типа булево и partial index на неё. При вставке/обновлении и один раз при создании колонки - заполнить её значением true для нужных строк.

Answer 5 · 2024-08-29 21:07:27

Избавляйся от like '%...%', это худший способ искать, он индексы не использует
даже поиск с регулярными выражениями работает лучше (правда там лимит на размер строки)

Если like используется чтобы искать части url, то храни в базе не целиком а разделенную по полям, в идеале чтобы поиск был на равенство (даже если база увеличится и станет сложнее, например тебе нужно искать по параметрам GET url, т.е. потребуется создать еще одну таблицу на них, скорость все равно будет хорошей)

Answer 6 · 2024-08-29 21:22:25

А мне первое что приходит на ум, реализовать собственный словарик + табличку в которой будут указаны сопоставления ID слов из словарика и ID из таблицы с текстом в которых встречается данное слово.
Я так делал, когда на проекте поиск был по большим кускам текста, который был в BLOB-ах. Я разделял текст на слова по пробелам.
Использовали этот поиск редко, но когда запускали, он висел минут 10-20, люди уходили пить чай наверно :) и всех это устраивало. Но однажды этот поиск повесил БД, и эта проблема оказалась в поле моего зрения. После формирования словарика и добавления функций чтобы по новым записям так же добавлялась инфа в словарик, поиск стал занимать доли секунды :)

10к строк по базе размером 500кк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт