Как уменьшить нагрузку на Mysql запрос на очень нагруженной базе?

Question

Александр @teranq

MySQL

Как уменьшить нагрузку на Mysql запрос на очень нагруженной базе?

привет всем! Пишу повторно. Отчасти вопрос решили, но остались непонятки.
Есть серьезно нагруженный проект.
Есть репликация (пишем в мастер, читаем со слейвов)
Есть 2 таблицы, в которые идет огромное количество записей и огромное количество инсертов и огромное кличество чтений (Task и TaskFlow2). Таблицы огромные.
И есть селект, с которым проблемы.
Индексы все сделаны.

SELECT 
  task.id, 
  task.remains
FROM 
  Task task 
WHERE 
  task.status = 'active' 
  AND task.type = 'follow_profile' 
  AND task.provider = 'insta' 
  AND task.cat = 3 
  AND NOT EXISTS(
  SELECT 1 FROM  TaskFlow flow 
  WHERE 
    flow.url_id = task.url_id 
    AND flow.executor_acc_id = $acc 
  );
ORDER BY task.id ASC
LIMIT 300

Индексы:

Task ( status, type, provider, cat )
TaskFlow (executor_acc_id, url_id )

Суть: При количестве запросов селект и инсерт в них примерно 3000+ в секунду, все ок.
Как только количество переваливает за 4000+ начинает сильно расти нагрузка на процессоры слейвов, селекты начинают выполнятся с задержкой в статусе sending data и их копится огромное количество если смотреть по show processlist и начинает расти отставание между мастером и слейвом. Соответственно все тупит и работает некорректно.
Не прекращается пока не ограничить поступление запросов. Как только останавливаем инсерты и селекты, все за пару секунд возвращается в норму

Подскажите куда копать. Спасибо!

UPD: Если увеличивать LIMIT в выборке, нагрузка значительно возрастает.

Вопрос задан более трёх лет назад
729 просмотров

2 комментария

Подписаться 5 Сложный 2 комментария

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

8 комментариев

Александр @teranq Автор вопроса

бро нет возможность работать с этим в оперативной памяти. В taskflow2 хранятся исключения минимум 1 месяц и мы их обязаны использовать в каждом селекте

Написано более трёх лет назад
rPman @rPman

Александр, какая разница как долго
речь о том что если производительность универсальной базы данных упирается по железу, то нужно сделать свою

храни данные хоть в sql базе данных, речь о том что для выполнения запросов ты должен хранить копию базы в удобных структурах в оперативной памяти в своем сервисе, именно он для твоих приложений станет этой базой данных, у тебя очень простые запросы - фильтрация и проверка наличия, на все хватит тупого hashmap

однопоточное приложение, написанное на c++ без фанатизма, работая исключительно с оперативной памятью, может выдавать сотни тысяч запросов в секунду

p.s. дело в том что как только ты отказываешься от базы данных как основной инструмент для поиска и делаешь ее только для хранения, от индексов и транзакций можно смело отказываться, а без них скорость записи взлетает в небеса... т.е. в терминах твоей текущей системы, ты убираешь slave сервер и заменяешь его самописным приложением, держащим базу в оперативной памяти

Написано более трёх лет назад
Александр @teranq Автор вопроса

rPman, я понимаю, Но в таскфлоу2 пишется миллионы строк ежечасно, мы не можем хранить месяц этой таблицы в оперативке

Написано более трёх лет назад
Drno @Drno

Александр, я так погимаю тут мысль обработать так только запросы... а синхронить уже готовые данные постепенно

Написано более трёх лет назад
Александр @teranq Автор вопроса

Drno, это невозможно, в taskflow2 хранятся исключения которые потребуются для следующего селекта

Написано более трёх лет назад
Александр @teranq Автор вопроса

rPman, Подрубили redis, обьем просто огромный получается который в нем хранится, не уверен что это норм, Под 500гб в месяц+-

Написано более трёх лет назад
rPman @rPman

500гб в месяц и фильтрация по всем данным идёт? И это не временные ряды, которые легко на партишены делятся?

Нужно оценить объем данных только в пределах тех полей, которые участвуют в условиях фильтрации и даже не их самих а количество

Когда пишешь свое приложение сами данные хранить в оперативной памяти не надо, только знали индексов

Сами данные можно из базы на диске запрашивать

P.s. нужно больше данных о задаче

Написано более трёх лет назад
Александр @teranq Автор вопроса

rPman, выдаем задания для выполнения действий в различных социальных сетях, пользователи выполняют их разными аккаунтами. В таблице task хранятся непосредственно задания, в таскфлоу2 лог выполннеий. На основании таскфлоу2 мы делаем исключения при каждом старте задания аккаунтом, дабы исключить ему повторную выдачу задания. Повторно нельзя выдавать месяц, по этому храним в таблице лога данные за весь месяц. У каждого таска есть URL и его id , нельзя выдавать одному аккаунту 1 url_id больше одного раза в месяц. Данные используем - из таск только url_id, и делаем исключения по urld_id = айди аккаунта исполнителя
В общем ничего лишнего кроме того что вы видите в запросе мы не берем.

Написано более трёх лет назад

7 комментариев

4 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 131 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 108 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 363 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 247 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 224 просмотра
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

Я бы поэкспериментировал бы с table partitions
Индексы все сделаны
Например?
Что показывает EXPLAIN?

Answer 1 · 2022-04-10 20:57:04

ты уже задавал этот вопрос, думаешь больше информации тебе придумают?
раз тормозит слейв, то почему бы не решить проблему грубой силой и поставить второй, третий.. десятый, а свои запросы делай на тот слейв, что менее нагружен в данный момент или тупо по очереди

p.s. какой объем данных? не будет ли эффективнее реализовать свои таски в оперативной памяти своего отдельного приложения, и вместо базы данных пусть твой бакэенд (или кто там) лезет к этому приложений... ни одна sql база данных ни при каких условиях не будет работать быстрее, чем твое собственное приложение с данными в оперативной памяти, а уж если тебе хватит одного потока то и на разработку решения потратишь очень мало времени

Answer 2 · 2022-04-10 21:49:13

Объем базы какой?
Возможно глупый вариант - но можно сделать раздел диска из оперативки... быстрее некуда.
Как раз копией
А сбрасывать в основу уже постепенно. И готовое...

Ну или запилить в рейд кучу ssd....

Answer 3 · 2022-04-10 23:50:01

Судя по всему, проблема в том, что MySQL начинает не успевать перестраивать индексы.
Сразу возникает вопрос: status, type, provider — это ENUMы или VARCHARы? Если второе, то можно ли заменить их на ENUM? Если нет, то можно попробовать делать индекс не по полному полю, а по его ограниченной длине, например, Task ( status(4), type(8), provider(4), cat ). В этом случае индексы будут перестраиваться быстрее.
Другой вариант вариант — сделать дополнительное численное поле, которое будет хешем от строкового значения, и делать выборку по нему. Можно использовать даже самую обычную CRC32 и сравнивать так WHERE status_crc=CRC32('active') AND type_crc=CRC32('follow_profile'). Соответственно, индексы делать не по status и type, а по status_crc и type_crc (по численным полям индексы строятся быстрее, чем по строковым).
Ещё вариант — сделать в своём коде возможность буферизовать и накапливать накапливать какое-то количество INSERTов, после чего делать DISABLE KEYS, выполнять накопившиеся INSERT, затем ENABLE KEYS.

Answer 4 · 2022-04-12 17:32:08

Без каких-то серьёзных ахитектурных изменений вас спасёт только партицирование на несколько серверов, чтобы на каждом была только часть таблицы.

Answer 5 · 2022-04-14 09:07:18

Можно попробовать сделать небольшую нормализации, например перенести из таблицы task три поля ( type, provider, cat ) в отдельную таблицу tasktype, а в исходной таблице оставить только одно поле tasktypeID и это поле поместить в индекс таблицы task вместо предыдущих трех.
Т.к. у вас запросе условия указаты статичными, то можно вначале наиграть tasktypeID по таблице tasktype, которая не должна быть очень большой и затем идти в индекс от task по двум полям вместо четырёх. Кроме этого индекс в task станет меньше места занимать и это должно ускорить поиск по индексу и его перестраивание при добавлении новых строк.

Как уменьшить нагрузку на Mysql запрос на очень нагруженной базе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт