Оптимизировать запрос с GROUP BY по строке на большой таблице?

Question

UJey @UJey

MySQL

Оптимизировать запрос с GROUP BY по строке на большой таблице?

MySQL. Есть таблица с новостями, много записей — уже около 70 тыс. и будет расти.

Структура такая:

CREATE TABLE IF NOT EXISTS `news` (<br/>
 `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,<br/>
 `id_section` int(11) NOT NULL,<br/>
 `title` varchar(250) NOT NULL,<br/>
 `description` text,<br/>
 `image` varchar(250) DEFAULT NULL,<br/>
 `url` varchar(250) NOT NULL,<br/>
 `timestamp` int(10) unsigned NOT NULL,<br/>
 `active` tinyint(1) unsigned DEFAULT '1',<br/>
 PRIMARY KEY (`id`),<br/>
 KEY `id_section` (`id_section`),<br/>
 KEY `timestamp` (`timestamp`),<br/>
 KEY `title` (`title`),<br/>
 KEY `active` (`active`),<br/>
 KEY `url` (`url`)<br/>
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=69653 ;

Есть проблема: записи добавляются автоматически таким образом, что одна и та же запись может быть добавлена несколько раз для разных id_section.

Таким образом при получении данных без указания параметра id_section (показать новости из всех разделов) вылазят дублирующиеся записи. Причем, как правило, они идут подряд. Это плохо.

На таблице небольшого размера решением был такой запрос:

SELECT `news`.* FROM `news` WHERE (active = 1) GROUP BY `url` ORDER BY `timestamp` desc LIMIT 10 OFFSET 20

Однако, уже сейчас такой запрос выполняется 4-5 секунд (!!!).
Нужно решение, которое позволит выйти на показатель хотя бы 0.5 сек.

Примечание: без GROUP BY данный запрос выполняется 0.7 сек. При том, что другие запросы из небольших таблиц занимают микросекунды.

Принимаются любые предложение по оптимизации — не только данного запроса. Возможно есть какие-то специальные приемы для решения подобных задач.

Вопрос задан более трёх лет назад
7281 просмотр

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 1

8 комментариев

SovGVD @SovGVD

и если надо чтобы одна новость была в разных разделах, тогда добавить промежуточную таблицу со связями (как писали выше) — так и таблица разгрузиться от лишних записей

Написано более трёх лет назад
UJey @UJey Автор вопроса

Идея хорошая.
Вопрос: как реагирует БД на попытку добавить запись с повторяющимся значением поля, по которому создан индекс UNIQUE?

Написано более трёх лет назад
SovGVD @SovGVD

если в INSERT не стоит ON DUPLICATE KEY UPDATE, то ошибку вернет… иначе чего нибудь обновит

Написано более трёх лет назад
UJey @UJey Автор вопроса

Надо чтобы просто дало знать, что такое уже есть. Как отличить ошибку работы БД с ошибкой по уникальному индексу?

Написано более трёх лет назад
SovGVD @SovGVD

ну оно же всегда код ошибки возвращает www.php.net/manual/en/function.mysql-errno.php (если у вас пхп), точный код не скажу — просто попробуйте сделать и узнаете =)

Написано более трёх лет назад

Doktor_Gradus @Doktor_Gradus

Оно вернёт ошибку дублирования строки и и её можно обработать. Для php это функция mysql_error().

Как-то так:

$sql = 'SELECT ...';
$res = mysql_query( $sql, $connect );
$error = mysql_error(); 
//функция возвращает пустую строку, если запрос выполнен успешно или текст ошибки, если не выполнен.

Написано более трёх лет назад

SovGVD @SovGVD

имхо лучше по коду — надежнее, чем текст, вот тут список кодов ошибок: dev.mysql.com/doc/refman/5.5/en/error-messages-server.html

Написано более трёх лет назад
UJey @UJey Автор вопроса

Решение принято. Большое спасибо!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 8

5 комментариев

UJey @UJey Автор вопроса

Вы предлагаете сделать промежуточную таблицу вида
rec_id / id_section / id_news

, где будет храниться информация о том какая новость к какому разделу принадлежит?

Написано более трёх лет назад
MiniM @MiniM

Да, именно это.

Написано более трёх лет назад
UJey @UJey Автор вопроса

Я думал над этим. Оказалось довольно сложно.
В таблице большой объем данных. Добавляются новые записи каждые 20 минут. Получается, что каждые 20 минут нам нужно для каждой новой записи пробежать по всему массиву данных и понять — была уже такая новость или нет. Если была — берем ее ID и записываем «для этой новости есть еще и другой раздел».
Я правильно понял идею? Хранить только уникальные новости, а дублирование выносим в промежуточную таблицу. Проблема в ресурсоемком вычислении «дубликатов». Сравнение-то по url (строка переменной длины).

Написано более трёх лет назад
UJey @UJey Автор вопроса

Если я где-то ошибся — поправьте меня, пожалуйста.

Написано более трёх лет назад
UJey @UJey Автор вопроса

В итоге сделал так, как Вы предложили. Посмотрим что это даст в производительности — нужно закончить реализацию и провести пару тестов. Спасибо!

Написано более трёх лет назад

4 комментария

UJey @UJey Автор вопроса

Например
EXPLAIN SELECT `news`. *
FROM `news`
GROUP BY `url`
ORDER BY `timestamp` DESC
LIMIT 10
OFFSET 10000

Выдает следующее
id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra
1 | SIMPLE | news | index | NULL | timestamp | 4 | NULL | 10010 | Using temporary

Заметьте, я выкинул из таблицы поле active. Его нет больше.

Написано более трёх лет назад
Renat Ibragimov @MpaK999

а с остальным, что выше писал как?

Написано более трёх лет назад
UJey @UJey Автор вопроса

1. InnoDB использовать нерационально. Т.к. основное время идет именно выборка данных, а не вставка/обновление/удаление.

2. Какая разница какой тип поля используется для временной метки? А с timestamp работать проще (лично мне).

3. Кэш последних Х записей не поможет. Запросы идут не только к первым записям. А и к более ранним тоже. Если поисковый робот решит пройтись по страничкам — это будет все равно очень затратно по времени.

4. Думаю над тем как оптимально отмечать дубликаты при добавлении…

Написано более трёх лет назад
Renat Ibragimov @MpaK999

InnoDB и дата к тому, что удобно было бы разбить на партиции таблицу, чтобы каждая часть хранила бы например только месяц, тогда запрос бы шел в рамках данных за месяц, а не всей своры.

С дубликатами да, надо бороться, как только зависит от ваших данных.

Написано более трёх лет назад

8 комментариев

UJey @UJey Автор вопроса

да, есть индекс.

Написано более трёх лет назад
UJey @UJey Автор вопроса

Попробовал без всякой группировки. Из условий осталось только ORDER BY timestamp DESC. Запрос обрабатывается 0.2 секунды. Это вообще нормально для 70 тыс записей?

Я тоже думаю, что это немного. Работал и с большим объемом. Было быстрее, чем сейчас.

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

Нашел у себя на одном продакшн сервере таблицу с 90 000 записей
Попробовал из нее сделать выборку с сортировкой по полу типа DATETIME — 2 секунды
Сделал индекс на это поле и еще раз выборку — 0.00002 секунды
Видимо у вас дело в индексах.

А какая посещаемость проекта? Может у вас там процессор на 100% загружен поэтому такой долгий ответ
Вы опыты делаете на сервере или на локальной машине?

Написано более трёх лет назад
UJey @UJey Автор вопроса

На сервере. Удаленном. Выделенном. Там несколько мелких сайтов (до 10).
Посещаемость очень низкая. сегодня на сайте было 39 человек. В данный момент там я и еще один человек (судя по статистике)

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

попробуйте запустить blog.mysqltuner.com/ и выполнить его рекомендации

Если у вас есть все индексы и сервер не загружен то все должно работать быстрее. Если конечно сервер не p2 166 mhz/ 8 mb DIMM

Написано более трёх лет назад
UJey @UJey Автор вопроса

Индексы есть — указаны в первом посте. Сервер нормальный. Не по последнему слову техники, но вполне приличный. Там стоит Intel с двойным ядром (Core Duo). Покупался год назад — тогда это был хороший проц. И 4 Gb оперативки.

Сейчас зашел в БД форума (на том же сервере). В таблице постов ~400 тыс записей, также есть столбец с timestamp. Сделал аналогичную выборку (без GROUP) — быстрее работает. 0.04 секунды. У меня же это 0.7.

Вопрос «как такое может быть» плавно перетекает в «какие для этого могут быть причины».

Написано более трёх лет назад
UJey @UJey Автор вопроса

Детальное сравнение показало, что выборка из сравниваемой таблицы форума на том же сервере при достаточно большом сдвиге по OFFSET дает такие же медленные результаты — около секунды.

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

Попробуйте запустить mysqltuner.pl и посмотреть его рекомендации по настройке mysql

Как я понимаю, такое возможно из-за малых размеров буферов

Написано более трёх лет назад

4 комментария

UJey @UJey Автор вопроса

Если добавить MD5, то запрос отрабатывает примерно за 3 секунды. Это долго.
Пропуски есть. Я читал про то, что можно обойтись без LIMIT-а и как это сделать. Просто в данный момент проблема не в сдвиге, а именно в группировке, т.к. после обновления базы (когда кэш сбросился) получение первых 10 элементов также занимает 4-5 секунд.

Написано более трёх лет назад
UJey @UJey Автор вопроса

Хотя признаю, что в плане LIMIT-а Вы правы. Если убрать группировку, скорость запроса снижается пропорционально количеству пропускаемых строк. Это логично и это понятно.

Думаю, что в итоге откажусь от него. Однако сначала нужно решить проблему с дубликатами.

Написано более трёх лет назад
aaaDron @aaaDron

Таким образом при получении данных без указания параметра id_section вылазят дублирующиеся записи.
может просто выводить новости например за последний день без групировки а чтобы подряд дубли нешли сортировать еще и по рандому примерно так — SELECT * FROM `news` WHERE `active` = 1 and TO_DAYS(`timestamp`)=TO_DAYS(NOW()) ORDER BY HOUR(`timestamp`),rand() desc LIMIT 10

Написано более трёх лет назад
UJey @UJey Автор вопроса

Новости должны идти по порядку.

Написано более трёх лет назад

1 комментарий

Комментировать

1 комментарий

7 комментариев

UJey @UJey Автор вопроса

как?
я не увидел как можно его применить…

Написано более трёх лет назад
Ogra @Ogra

SELECT DISTINCT id, url FROM `news` WHERE (active = 1) GROUP BY `url` ORDER BY `timestamp` desc LIMIT 10 OFFSET 20.
Потом второй запрос по id.

Написано более трёх лет назад
Ogra @Ogra

Решение, конечно кривое, но мне вообще кажется, что у вас какие-то проблемы с БД. Слишком уж долго все…

Написано более трёх лет назад
Ogra @Ogra

Почитал мануал: dev.mysql.com/doc/refman/5.0/en/limit-optimization.html
Решение не такое уж и кривое — с DISTINCT запрос будет выполнено гораздо быстрее.

Написано более трёх лет назад
UJey @UJey Автор вопроса

Попробовал. Разница неощутима. Оба запроса занимают около 3 секунд.
А вообще я читал, что для DISTINCT в нашей ситуации строки (id, url)

11 site.com
12 site.com

— это две разные строки. И чтобы выбиралось действительно уникальное значение колонка с DISTINCT должна быть единственной в запросе.

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

Не будет работать т.к. могут быть добавлены 2 одинаковых новости, но id у них будет разный.

Вообще решение не кривое, т.к. дистинкт для решения подобных задач и был придуман собственно :)

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

колонка с DISTINCT должна быть единственной в запросе.

вообще нет, дистинкт модет применяться для нескольких колонок, например
SELECT DISTINCT text, url FROM news
выберет все уникальные пары text, url

но в данном случае это неприменимо из-за id

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 283 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 114 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 249 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 121 просмотр
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 171 просмотр
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 184 просмотра
1

ответ
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 126 просмотров
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 254 просмотра
1

ответ
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 291 просмотр
1

ответ
JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- 25 июл.
- 315 просмотров
1

ответ
Показать ещё Загружается…

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2010-12-22 16:23:20

может для каждой добавляемой новости делать хеш (от урла или всего текста или заголовка) и пихать его в поле, которое указанно как уникальное — тогда дубликаты будет отсеивать сама субд

Answer 2 · 2010-12-22 03:24:11

почему не сделать связь многие-ко-многим между таблицами news и sections?
тогда группировка будет не нужна.

Answer 3 · 2010-12-22 09:49:55

Renat Ibragimov @MpaK999

Буду!

Кстати EXPLAIN, что по вашему запросу выдаёт? Может базу подтюнинговать, ибо 70 000 это же мелочи.

Ответ написан более трёх лет назад

4 комментария

Answer 4 · 2010-12-22 10:57:34

Я думал над этим. Оказалось довольно сложно.
В таблице большой объем данных. Добавляются новые записи каждые 20 минут. Получается, что каждые 20 минут нам нужно для каждой новой записи пробежать по всему массиву данных и понять — была уже такая новость или нет. Если была — берем ее ID и записываем «для этой новости есть еще и другой раздел».
Я правильно понял идею? Хранить только уникальные новости, а дублирование выносим в промежуточную таблицу. Проблема в ресурсоемком вычислении «дубликатов». Сравнение-то по url (строка переменной длины).

Тут вы ошибаетесь в нескольких моментах:
70 000 статей это не большой объем данных, это очень маленький объем данных. Большой это на 4-5 порядков больше.
Каждые 20 минут сделать SELECT `id` FROM `news` WHERE `url` = $url это менее затратная операция чем для каждого посетителя делать GROUP BY `url`
Строка переменнйо длины — если длина ограничена можно сделать поле varchar и по нему индекс и все будет нормально работать.

без GROUP BY данный запрос выполняется 0.7 сек

а по полю active индекс сделали?

Answer 5 · 2010-12-22 13:47:10

попробуйте группировать так: GROUP BY MD5(url)
и избавитесь от limit'а, например так:
where id > 20 and id < 30
пример выше подходит только для сплошных id (т.е. что бы не было разрывов/пропусков)

Answer 6 · 2010-12-22 09:19:23

peter23 @peter23

Кэширование запросов (http://habrahabr.ru/blogs/mysql/108418/) может быть временным решением.

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2010-12-22 09:48:54

А почему MyISAM, а не выбран InnoDB, чтобы не лочить таблицу и можно было бы сделать partition таблицы например по месяц-год блоку, объем бы текущих данных сократился. Ну и время бы я не timestamp использовал, а например datetime.

Выносите 20 последних записей например в Redis (Memcache, в память, в файл на диске), а во фронте от туда уже и читайте, это мог бы быть и простой сериализованный массив в памяти, array_shift (array_push) и т.п. как со списком.

А дубликаты проверяйте сразу перед добавлением, каждые 20 минут же это не страшно.

Answer 8 · 2010-12-22 09:55:59

А откуда вообще возникают дубликаты? Автоматическое добавление новостей — имеется ввиду граббинг с других источников, отсюда и дубликаты?

Answer 9 · 2010-12-22 14:17:49

Ogra @Ogra

Может попробовать DISTINCT?

Ответ написан более трёх лет назад

7 комментариев

Оптимизировать запрос с GROUP BY по строке на большой таблице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт