Как правильно работать с большим количеством данных?

Question

Sergey Ilichev @first-programmer

Backend software engineer

Как правильно работать с большим количеством данных?

Всем привет)

Раньше никогда не работал в фирмах где имеется большой объем данных.

Есть таблица, где данных уж точно не знаю сколько, но за пару десятков миллионов наверно, с индексами она весит не один десяток гигов, поэтому даже индексы туда навешивать не просто - много памяти на диске занимает.

Есть грид, в котором нужно все это дело выводить с фильтрами по разным полям, плюс возможность экспорта с неограниченным числом строк, плюс в некоторых фильтрах выпадающие списки которые нужно формировать тоже запросом к базе на лету.

Все это нужно дергать по api из другого нашего сервиса.

Получается мы делаем такие запросы -
- получение данных с учетом пагинации, это 10 записей
- получение данных об общем количестве записей для построения пагинации, это SELECT count(id)
- Потом дергается запрос для получения данных на экспорт (можно подумать как отрефакторить, чтобы не при загрузке страницы дергались данные, а только во время экспорта) - все данные с учетом фильтров. Пока ограничил максимально 10000 записей, но по хорошему нужно наверно миллионы для статистики.
- Запросы на каждый выпадающий список в фильтрах - SELECT distinct field_name
- Запрос при фильтрации и сортировке - SELECT * FROM some_table WHERE field_name LIKE '%value%'

Когда страница загружается отправляются все запросы кроме применения фильтров, если они не установлены по умолчанию.

Получается что нужно куча раз обработать запросы к таблице с миллионами данных. Сейчас отваливается по таймауту при фильтрации, но не понятно как рефакторить. Если по id делать фильтр, то более или менее, а если по другим полям то отваливается пока. Полей много, разные даты, guid, названия проектов, данные из поля типа json, цены.

На все индексы не поставишь, тем более что один индекс может добавить гигов 5-10 к весу.

Кто работал с такими объемами данных, как это вообще делать, чтобы все шустро работало.

На сервере postgresql.

Вопрос задан более трёх лет назад
1741 просмотр

4 комментария

Подписаться 13 Средний 4 комментария

part_os @part_os

а вы уверены что у Вас именно запрос тяжелый? а не в коде дело?

Написано более трёх лет назад
shurshur @shurshur

70 Гб - это вообще не гигантский объём. Люди оперируют террабайтами и даже больше. Главная проблема не в объёме таблицы, а в том, чтобы не читать её целиком (full scan) при выполнении запроса. И вот тут главная фигня: одно только условие like '%слово%' в любом случае требует просмотреть каждую строку, значит, будет full scan. Обычные индексы по этому полю строить бесполезно. Есть всякие полнотекстовые, но в общем случае их тоже надо правильно готовить, чтобы работало приемлемо. Решение может зависеть от задачи. Например, если это ключевые слова в виде текстовой строки с пробелами или иными разделителями, то их можно вынести в отдельную таблицу отдельными строками и проиндексировать там, полнотекстовый поиск тут будет излишним.

Написано более трёх лет назад
Everything_is_not_so_bad @2ord

shurshur, хорошо бы перенести как ответ.

Написано более трёх лет назад
shurshur @shurshur

Роман Мирр, ок, перенёс.

Написано более трёх лет назад

Решения вопроса 3

8 комментариев

Sergey Ilichev @first-programmer Автор вопроса

Этому проекту не один год и лепили его все как могли, я уже пришел на этот прекрасный проект, когда он так спроектирован. Сейчас понятное дело рефакторю. Когда скопилось такое количество данных, то перестройка базы данных не такая тривиальная задача, чтобы взял и раскидал. Там дамп одной таблицы 70+ гигов. Плюс отдельные таблицы это тоже не всегда фонтан, так как это индексы, индексы вообще не всегда ускоряют работу. Иногда от них вообще отказываются полностью, но это разумеется не тот случай, тут просто так программист работавший на проекте решил сделать.

Для работы с json есть свои методы в postgresql.

like идет только по полям типа project_name. Где не предусмотрен большой объем текста. На счет полнотекстного поиска буду разбираться. Я им не пользовался пока, не было нужды так сказать. Но избегать поиска по этим полям не получится, так как нужно прямо из грида фильтровать по ним и сортировать.

Написано более трёх лет назад
FanatPHP @FanatPHP

Плюс отдельные таблицы это тоже не всегда фонтан, так как это индексы, индексы вообще не всегда ускоряют работу.

я извиняюсь, но это глупость. несусветная.
если у тебя по полю идёт выборка, то это в любом случае индекс. Только в случае одной таблицы (твоё select distinct ) это адово дублирование информации, которое добавляет к твоим "гигабайтам", но главное - если говорить про индексы - это индекс по полю в десятки байт, а в случае отдельной таблицы - это индекс по полю в 4 байта.

В общем конкретно для грида надо смотреть в сторону Эластика/Сфинкса. В смысле чтобы не только для полнотекстового, а чтобы все фильтры, которые есть выборке, были забиты в поисковый индекс. И все выборки - через поисковый сервис, а не через прямой запрос к базе

Написано более трёх лет назад
galaxy @galaxy

Sergey Ilichev,

like идет только по полям типа project_name. Где не предусмотрен большой объем текста

суть же не в объеме текста в поле, а в том, что условие LIKE '%abc%' не позволяет вообще использовать индекс. В результате сканируется таблица целиком.

Не уверен, что в вашем случае полнотекстовый поиск будет хорошим вариантом. Посмотрите в сторону расширения pg_trgm, оно позволяет использовать индекс для условий типа LIKE и (определенных) регулярных выражений.

Написано более трёх лет назад
FanatPHP @FanatPHP

galaxy, на самом деле эластик - идеальное решение для этой свалки. он сам всё проиндексирует, и дальше просто прикрутить поиск по параметрам

Написано более трёх лет назад
batyrmastyr @batyrmastyr

FanatPHP, эластик и сфинкс с половиной проблем автора справляются ещё хуже, чем постгрес. В частности он поимеет геморрой с актуализацией данных, более тормозной distinct, адовый жор памяти. Привести его базу в норму на порядок проще будет, чем спаривать базу с неведомыми для него зверушками и перенося кривизну базы один в один на сфинкс/эластик.
Так-то ему обязательно стоит пощупать и сфинкс/мантикору, и эластик, но задач ради которых ему реально нужен сфинкс (хитрожопый полнотекстовый поиск) я не увидел.

Написано более трёх лет назад
FanatPHP @FanatPHP

batyrmastyr, ему сфинкс/эластик нужны в первую очередь не как полнотекстовый поиск а как поиск по параметрам, faceted search. где учитывается и полнотекстовый по текстовым полям, и совпадение по параметрам

Написано более трёх лет назад
batyrmastyr @batyrmastyr

FanatPHP, faceted search = GROUPING SETS. Однако с чего вы решили, что "в некоторых фильтрах выпадающие списки которые нужно формировать тоже запросом к базе на лету" - это именно фасеты? Да крайне сомнительно, что ему вообще нужен полнотекстовый поиск или что ему не хватит стандартного постгресового.
Но главное: я лично уверен, что ему полезнее будет не множить бардак через дополнительные сервисы, а немного этот самый бардак уменьшить, а потом уже решать, есть для доп. сервисов задачи.

Написано более трёх лет назад
FanatPHP @FanatPHP

batyrmastyr, самое интересное, что я тоже в этом уверен, правда начинал бы со структуры БД.

Чисто в плане обучения понятное дело что ему будет полезно освоить все тонкости работы с БД.
Но, боюсь, этому "инженеру", чтобы воспользоваться всеми рекомендациями, нужно будет сначала годика два хорошенько поучиться. потому что сейчас перед ним стоит три проблемы: куча мусора вместо БД, высокие нагрузки, ну и плюс незнание, собственно, SQL и особенностей конкретной БД.

Написано более трёх лет назад

1 комментарий

2 комментария

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Sergey Ilichev @first-programmer Автор вопроса

Это таблица куда кладутся данные в том формате как они приходят от сервиса. То есть одна таблица с примерно 30 колонками, где лежит куча данных в перемешку. Кто это так придумал и почему знает только тот, кто придумал, но он тут уже не работает, а я тут совсем недавно. Есть задача - грид с фильтрацией по любым полям - если в полет текст, или guid ищем не строго, а по вхождению части строки. Таких полей там много, например разные данные о ходе проведения транзакции. Все это дело дергается по api. То есть дергаются данные с пагинацией из таблицы. Потом строятся списки фильтров через distinct по этой же таблице. Да, если бы данные, которые можно условно считать справочными лежали бы в отдельно проиндексированной таблице, то это отрабатывало бы почти моментально, но тут я еще не разобрался, на сколько будет болезненно это исправить. Это надо одну таблицу разбить на много других, прописать связи и переписать весь код, который работает с этим делом, а это не меньше трех лет работы с этой таблицей) В общем я пока думаю, как тут меньшей кровью обойтись и можно ли так сделать.

Написано более трёх лет назад

6 комментариев

FanatPHP @FanatPHP

я вас умоляю.
десять миллионов записей не требуют выделенного дба, ему будет скучно
не говоря уже об уровне вопросов
вот когда у него будет нормальная структура БД и вылизанные запросы плюс минимально дефолтно осмысленная конфигурация сервера - во тогда уже и будет смыл искать чувака на БД

Написано более трёх лет назад
ComodoHacker @ComodoHacker

FanatPHP, Я говорю не про DBA, а про DBD. Без него нормальная структура и запросы не появятся.

Написано более трёх лет назад
FanatPHP @FanatPHP

Вот и выросло поколение разработчиков, которое не в состоянии спроектировать БД без специально обученного человека...

Написано более трёх лет назад
ComodoHacker @ComodoHacker

FanatPHP, Ага, специализация повышает эффективность.

Написано более трёх лет назад
Adamos @Adamos

ComodoHacker, "специализация - удел насекомых" (с)

Написано более трёх лет назад
Adamos @Adamos

XOROX, специально для вас: (с)
We may even find out why the duck-billed platypus.*
*Not why is it anything. Just why it is.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Средний
Как получить телефон из Google OAuth 2.0 API?
- 1 подписчик
- 15 часов назад
- 41 просмотр
1

ответ
PHP

+1 ещё

Средний
Как запускать PHP в терминале Netbeans?
- 2 подписчика
- 16 часов назад
- 146 просмотров
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- 16 часов назад
- 84 просмотра
0

ответов
PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- вчера
- 98 просмотров
0

ответов
PostgreSQL

Простой
Нужен ли первичный ключ в таблицах PostgreSQL?
- 1 подписчик
- вчера
- 137 просмотров
2

ответа
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 136 просмотров
2

ответа
PHP

Простой
Не работает часть скрипта PHP при смены PHP 7 на 8?
- 1 подписчик
- 22 апр.
- 208 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как добавить отношения «многие-ко-многим» между таблицами из разных баз данных?
- 1 подписчик
- 22 апр.
- 127 просмотров
4

ответа
PHP

Средний
Как найти в массиве ответа API нужное значение, при том что значение может быть написано в разном регистре?
- 1 подписчик
- 22 апр.
- 143 просмотра
3

ответа
PHP

+1 ещё

Простой
Как отправить сообщение в определенную тему в группе Telegram боту на PHP?
- 1 подписчик
- 22 апр.
- 93 просмотра
1

ответ
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Разработать HLTV HUD для стрима CS 1.6

25 апр. 2024, в 08:02

2500 руб./за проект

Вычислить размер объекта по карте глубин

25 апр. 2024, в 07:37

5000 руб./за проект

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

а вы уверены что у Вас именно запрос тяжелый? а не в коде дело?
70 Гб - это вообще не гигантский объём. Люди оперируют террабайтами и даже больше. Главная проблема не в объёме таблицы, а в том, чтобы не читать её целиком (full scan) при выполнении запроса. И вот тут главная фигня: одно только условие like '%слово%' в любом случае требует просмотреть каждую строку, значит, будет full scan. Обычные индексы по этому полю строить бесполезно. Есть всякие полнотекстовые, но в общем случае их тоже надо правильно готовить, чтобы работало приемлемо. Решение может зависеть от задачи. Например, если это ключевые слова в виде текстовой строки с пробелами или иными разделителями, то их можно вынести в отдельную таблицу отдельными строками и проиндексировать там, полнотекстовый поиск тут будет излишним.
shurshur, хорошо бы перенести как ответ.

Answer 1 · 2021-04-15 08:04:01

Не хочется ругаться, но вопрос очень бессвязный и в нем перемешаны реальные проблемы с нелепыми фантазиями.

И проблема тут не в незнании как работать с большими базами данных, а в неумении работать с БД в целом.

Про идею "всем индекс не поставишь" надо сразу забыть. Там где индекс нужен, он должен стоять без вариантов. Другое дело что тупо натыкать индексов по всем полям, по которым идёт поиск - это тоже глупость. Индекс в запросе может использоваться только один, и индексы по второму-третьему полю уже будут бесполезны. Надо анализировать запросы и, возможно, делать составные индексы.

Детсадовский запрос вида like '%...%' - это отдельный ужас. Надо смотреть на полнотекстовый поиск. А лучше вообще его избегать. На крайний случай использовать внешние поисковые сервисы типа эластика. И только не говори что этот лайк у тебя идёт по полю типа джейсон или "через запятую"

Но самый конечно кошмар - это select distinct для фильтров. То есть неумение проектировать бд на самом базовом уровне, непонимание самых начальных принципов реляционных бд, нормализации. Вот с этих принципов и надо начать. В потом уже хвататься за большие объемы. Очевидно, что поля по которым ты собрался делать "distinct" - это должны быть отдельные таблицы, от которых в основной таблице будет просто id. поле размером в 4 байта.

Непонятно, откуда взялись фантазии про гигабайтные индексы, кстати. Большая часть полей в нормальной бд - это не больше десятка байт. То есть индекс - это десятки мегабайт, а не "гигабайты".

В общем, куда лучше бы смотрелись здесь не абстрактные рассуждения про большие объёмы, а конкретный запрос, который "отваливается". С обязательным результатом EXPLAIN

А ответ на абстрактный вопрос "как работать с большими объемами" очень простой: точно так же, как с небольшими. Реляционные бд изначально проектировались под большие размеры. То есть надо просто уметь работать с бд. Читать про реляционную модель, нормализацию, индексы, оптимизацию запросов.

Конкретно для грида надо смотреть в сторону Эластика/Сфинкса. В смысле чтобы не только для полнотекстового поиска, а чтобы все фильтры, которые есть выборке, были забиты в поисковый индекс. И все выборки - через поисковый сервис, а не через прямой запрос к базе

Answer 2 · 2021-04-15 06:52:20

Избавляйся от ... where fld like '%...%' это самые плохие по скорости запросы, хотя не всегда это возможно без увеличения размера базы, вообще полнотекстовый поиск можно отдавать на откуп стороннему приложению (это может расширить возможности фильтрации), считай это еще одной формой индекса, хотя лучше данные по другому хранить. Я встречал ситуации когда в varchar хранили значения справочника из десятка значений, но делали по нему like %% что грузило базу прилично, когда как сделать простой комбобокс на порядок эффективнее и удобнее - поиск по подстроке лучше по справочнику делать на клиенте.

Без индексов скорее всего никуда, если в запросе идет фильтрация по полю, то если не создать на него индекс, этот запрос и будет создавать нагрузку

В некоторых специфических случаях, можно делать запросы заранее (для более шустрой пагинации например), запрашивая сразу несколько страниц наперед, с учетом движения вперед (и возможно назад, в общем прогноз должен предполагать что перелистывание продолжится), запрос на будущие записи делать заранее, пока пользователь смотрит текущий результат. Недостаток подхода - при удачном прогнозе действий пользователя отзывчивость интерфейса повышается, как и средняя нагрузка на базу. Так же добавляет отзывчивости если окно запроса будет больше окна отображения (т.е. для отображения 10 строк запрашиваешь 30, начиная с предыдущей страницы)

Частный случай прогноза, не делать select ... limit ... на каждую страницу, а при смене фильтра запрашивать весь диапазон, но только идентификаторы, сохранив их либо в таблице на сервере либо на бакэенде, генерирующим запросы вида select ... id in (...), последнее если количество записей не больше тысяч. Кстати именно постраничная навигация с прогруженным списком id самая шустрая

Кешируй результаты запросов, можно на клиенте, можно даже средствами браузерного кеша, очень часто работа человека состоит в перемещении туда сюда по своим запросам, так зачем нагружать лишний раз сервер тем что уже известно. Осторожно с инвалидацией данных, и кстати не всегда она так уж и критична.

Некоторые фильтрации данных возможно эффективнее делать на клиенте, как бы это странно не звучало, но клиент по скорости работы может даже превосходить сервер, так почему бы часть данных не хранить в принципе на нем и не фильтровать там же, но это зависит от особенности данных, гонять и хранить гигабайты клиенту не удобно (особенно если это браузер). Это может сильно усложнить алгоритм пагинации, но подумай, так ли человеку нужно знать какой номер строки у него сейчас, обычно достаточно понимать общий прогресс (сколько примерно до конца списка и сколько данных в принципе).

p.s. диск на сервере hdd или ssd? если не хватает денег на большой ssd, настрой маленький ssd как кеш к медленному hdd (linux bcache), даже когда данные полностью не влезают в кеш, это дает заметный прирост, потому что hdd начинает менее случайно двигаться, плюс добавляется буферизация записи (данные записываются на ssd и лежат там пока hdd не освободится), так же дает эффект ускорения записи вынос журнала файловой системы (если ext4) на ssd (требуется пара гигабайт от силы).

Осторожно, если высокие требования к надежности хранения, кеширующий ssd в режиме записи лучше пусть будет хотя бы raid1, так как иначе при смерти ssd починить данные, размазанные по диску и кешу будет очень сложно. Для кеша только для чтения это не так критично (при смерти ssd сервер просто упадет, не убивая данные).

Но мне больше нравится резервирование на лету (настроить онлайн репликацию, пусть и на слабый, бакап сервер)

Answer 3 · 2021-04-22 09:43:19

- получение данных об общем количестве записей для построения пагинации, это SELECT count(id)

1. count(*), а не count(id)
2. если вас не сильно интересует абсолютно точное значение для миллионов результатов, то делаете оценку количества, начать проще с EXPLAIN <текст запроса> вы можете получить оценку количества результатов. Мы для себя решили, что если по оценке меньше 50 000 строк, то вслед за этим делаем обычный SELECT count(*) для получения точного количества.

Потом дергается запрос для получения данных на экспорт

1. Пожалуй, вам от этого нужно избавляться в первую очередь. Нажал человек на кнопку "экспортировать" - экспортируете, а до этого и дёргаться нет смысла. Фильтры можно получить либо при клике, либо из заголовка referer
2. Если вам нужно абсолютно все данные, то ставите задание на экспорт в очередь и выполняете его в отдельном процессе, сохраняете в файл. Для пользователя рисуете прогресс выполнения и выводите его в нажатую пользователем кнопку, хотя можно тупо на отдельной странице выводить список "заказанных" выгрузок и ссылки на скачивание.

Запросы на каждый выпадающий список в фильтрах - SELECT distinct field_name

Можно с какой-то периодичностью выгружать выхлоп таких запросов в материализованное представление / справочную таблицу / ENUM. Для обновления таких справочников "в реальном времени" можно повесить триггер на вставку в основную таблицу который будет делать INSERT INTO dictionary (value, column_oid) ON CONFLICT / ALTER TYPE ADD VALUE IF NOT EXISTS
После чего в основной таблице заводите рядом поле под идентификатор в справочнике и индексируете уже его.

Запрос при фильтрации и сортировке - SELECT * FROM some_table WHERE field_name LIKE '%value%'

1. если у вас значения длинные (от 8 - 10 символов), то стоит попробовать триграммные индексы. Но на коротких значениях они могут замедлить поиск раза в полтора-два.
2. Полнотекстовый поиск. В частности есть поиск лексемы по префиксу ts_tsquery('сло:*') (быстро найдёт и "слово" и "словарь", но не найдёт "однословное")
3. Для полей по которым вы сделаете словари лучше делать поиск через словарь SELECT * FROM table WHERE column_dictionary_id IN (SELECT id FROM dictionary WHERE value LIKE '%текст%'). В словаре у вас наверняка на порядок - три меньше значений, а несколько сотен или тысяч значений в IN постгрес нормально пережуёт.

Полей много, разные даты, guid, названия проектов, данные из поля типа json, цены.

Активнее используйте функциональные и частичные индексы.
Например, у нас есть кадастровые номера. Триграммный индекс по ним весит 56 мбайт, а BTREE по номерам урезанным до кадастровых кварталов - 15 мбайт, в поиске к "cadastre_id LIKE '11:22:333333:1%'" добавился "AND to_quarter(cadastre_id) = '11:22:333333'", но сам поиск получается на порядок быстрее (~5 мсек вместо 50 - 70).
Главное не забывайте о стоимости этих самых функций - индекс по to_quarter может строиться всего в 1,5 раза дольше нефункционального, если делать LEFT(cadastre, -(position(':' IN reverse(cadastre))), а может и в 100 раз, если использовать регулярку.

На все индексы не поставишь, тем более что один индекс может добавить гигов 5-10 к весу.

Если ещё не обновились, то обновляйтесь на 13-ю версию, там размер BTREE индексов уменьшили в 3 раза. Ну и посмотрите, возможно вам где-то нужны GIST, GIN или BRIN индексы.

Answer 4 · 2021-04-15 13:57:38

70 Гб - это вообще не гигантский объём. Люди оперируют террабайтами и даже больше. Главная проблема не в объёме таблицы, а в том, чтобы не читать её целиком (full scan) при выполнении запроса. И вот тут главная фигня: одно только условие like '%слово%' в любом случае требует просмотреть каждую строку, значит, будет full scan. Обычные индексы по этому полю строить бесполезно. Есть всякие полнотекстовые, но в общем случае их тоже надо правильно готовить, чтобы работало приемлемо. Решение может зависеть от задачи. Например, если это ключевые слова в виде текстовой строки с пробелами или иными разделителями, то их можно вынести в отдельную таблицу отдельными строками и проиндексировать там, полнотекстовый поиск тут будет излишним.

Answer 5 · 2021-04-15 10:14:08

Похоже, вы доросли до вакансии "Разработчик БД". То есть вам нужен человек, хорошо знающий работу СУБД (в вашем случае PostgreSQL) и оптимизацию ее производительности.

Answer 6 · 2021-04-15 21:35:44

это тибе
https://github.com/mkabilov/pg2ch
( ну и сам Клихаус, если вдруг не дошло)

а вообще - книжка
https://dmkpress.com/catalog/computer/databases/97...

правда, по иронии, из колоночных там только Hbase можно натянуть, но хотя бы появится представление, что универсального нет и база выбирается под набор задач

Как правильно работать с большим количеством данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт