Кто тестировал Оператор IN в MySQL? Насколько он быстр и есть ли альтернативы?

Question

Gambik @Gambik

MySQL

Кто тестировал Оператор IN в MySQL? Насколько он быстр и есть ли альтернативы?

При выборке из таблицы необходимо доставать записи, соответствующие всем значениям немаленького массива.

Получается, что в оператор IN загоняется около 1000 значений через запятую. Чую, что-то тут не так)

Что посоветуете лучше по производительности?

Вопрос задан более трёх лет назад
16504 просмотра

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 10

Комментировать

1 комментарий

Комментировать

4 комментария

Анатолий @taliban

sqlinthewild.co.za/index.php/2009/08/17/exists-vs-in/ так, на всякий случай =)

Написано более трёх лет назад
strib @strib

Эх, значит что-то поменялось. Надо повторить, т.к. условия не идентичны указанным в вопросе, но я видел отличия в плане выполнения, при том в разных базах. Пойду попробую…

Написано более трёх лет назад
whats @whats

@taliban Так на всякий случай, на дворе 2014. И на 2012 год тоже много в ядре поменялось. И производительность в том числе

Написано более трёх лет назад
Анатолий @taliban

@whats я понимаю что некропостеры никогда не умрут, но вы не пробовали проверить то что написано в той статье перед тем как написать каментарий? Ато вдруг ничего не изменилось а вы уже наехали на мой камент =)

Написано более трёх лет назад

Комментировать

2 комментария

Комментировать

5 комментариев

freeek @freeek
Не нашел статью, но читал, что:

SELECT * FROM table WHERE field IN ('name1', 'name2', 'name3'); //nameN //Лучше менять по возможности на: SELECT * FROM table WHERE field = 'name1' OR field = 'name2' OR field = 'name3'; //nameN

Протестировать нет возможности, попробуйте, расскажите нам :)
Написано более трёх лет назад
Анатолий @taliban

Это синонимы, ин будет действовать именно как OR

Написано более трёх лет назад
freeek @freeek

На базе с которой работаю.
MySQL 5.1.48.
Для четырёх вариантов, 7274 записей:
Первый запрос: 0,27 sec.
Второй запрос: 0,24 sec.

Во как!

Написано более трёх лет назад
Анатолий @taliban

У меня на 50000 записях оба запроса выполняются одинаково 0,06 =) Во как!

Написано более трёх лет назад
freeek @freeek

Может артефакты MySQL, не знаю. Но, есть вот такое дело, раз пишут, значит не только у меня :)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 102 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 315 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 221 просмотр
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 447 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2012-08-07 01:45:42

Подойдите к проблеме с чуть более раннего места.
Откуда берется массив? Из базы? Тогда может больше смысла подумать о сложном запросе?
Или можно массив во временную таблицу загнать и ссылаться на нее.

Answer 2 · 2012-08-07 01:13:22

Использовать IN категорически не советую, начинает безбожно тормозить… Это костыль только для единичных случаев.

Answer 3 · 2012-08-07 02:31:45

Avoid using IN(...) when selecting on indexed fields
Я думаю это только для составных индексов: fields — во множественном числе.

Подробнее описано здесь:
www.mysqldiary.com/optimizing-the-mysql-in-comparison-operations-which-include-the-indexed-field/

Если делать ID IN (...) — ничего плохого в этом нет.

Answer 4 · 2012-08-07 07:32:07

Вообще, запросы крайне сложно оптимизировать не имея перед глазами вообще ничего.
Покажите create table, explain extended… Ну да ладно, поворчали, и будет.

Если вы используете простые числовые значения в IN и сам запрос простой, как пуля, например

select * from test1 where ID in (1,2,5,3);

То можно оставить как есть. На сколько я в курсе, мускуль будет всяко сам сортировать этот список, чтобы потом по нему искать. И даже индексы для этого будет использовать.

Если запросы сложнее (join, order by, union), то вас ждет печаль, а нас — более подробное описание задачи. Зачастую быстрее загрузить все ID во временную таблицу, и потом уже с ней работать. Чем ждать пока запрос с заменой обычного условия на IN отработает.

Answer 5 · 2012-08-07 08:00:14

А откуда берется массив?
Загнать его во временну таблицу и использовать EXISTS не быстрее будет?
Если массив в базе — то однозначно EXISTS.

Answer 6 · 2012-08-07 10:50:44

В случае потребности IN, добавляю LIMIT с DISTINCT. В добавок если IN приходит как список, то можно сразу-же и узнать длину списка для LIMIT.

Но выбирать строки будет долго, лучше цифры и то с индексами.

Собственно сравнение двух вариантов, при холодном запуске.
В базе храниться 4 миллиона записей.

SELECT DISTINCT * FROM `map` WHERE id IN ( 4, 5291, 12356, 256783, 1234, 1654, 57572 ) LIMIT 7
~0.0008 — сек

SELECT * FROM `map` WHERE id IN(4,5291,12356,256783,1234,1654,57572)
~0.0012 — сек

Answer 7 · 2012-08-07 00:36:26

Вики куда-то затерли, но в кэше Googl'a осталась копия.

Avoid using IN(...) when selecting on indexed fields, It will kill the performance of SELECT query.

Собственно, у вас может есть все-таки возможность использовать диапазоны для поиска? Или LIKE?

Answer 8 · 2012-08-07 00:45:35

Если уж необходимо выбирать 1000 записей по их ID, может загнать их в Redis и дергать оттуда? Скорее всего это будет быстрее, и мускуль не будет виснуть. Если данных очень много, их можно расшардить по нескольким Редисам.

Попробуйте проанализировать ключи на вхождения в непрерывные диапазоны, как советовал Ualde. Например: записи с ключами 1, 2, 3, 5, 6, 7 можно получить в виде условия из 2х диапазонов.

Answer 9 · 2012-08-07 08:31:17

Была похожая задача, только UPDATE нужен был. Цифр не засекал, но IN срабатывал медленно (да и длина запроса неприятная), поэтому я сделал prepare и в цикле сделал execute. Сработало это мгновенно, в отличит от IN.

Answer 10 · 2012-08-07 11:36:55

Всем спасибо за указанные направления к размышлению!
Буду думать и пробовать. Скорее всего пересмотрю архитектуру или буду использовать временную таблицу.

Если еще будут появляться идеи — с радостью впитаю! Спасибо!

Answer 11 · 2012-08-07 18:41:28

Тут примеры приводят какие-то удивляющие, я решил проверить.

Версия 5.5.25a-27.1-log Percona Server
В таблице 26 миллионов строк, размер на диске 4.5G.

FLUSH STATUS; select * from table where id in (1000,100000,1000000,3000000,5000000,7000000,10000000); SHOW SESSION STATUS LIKE 'Handler_read%'; 

+-----------------------+-------+
| Variable_name         | Value |
+-----------------------+-------+
| Handler_read_first    | 0     |
| Handler_read_key      | 7     |
| Handler_read_last     | 0     |
| Handler_read_next     | 0     |
| Handler_read_prev     | 0     |
| Handler_read_rnd      | 0     |
| Handler_read_rnd_next | 0     |
+-----------------------+-------+
7 rows in set (0.00 sec)

FLUSH STATUS; select * from table where id in (1000,100000,1000000,3000000,5000000,7000000,10000000) limit 4; SHOW SESSION STATUS LIKE 'Handler_read%'; 

+-----------------------+-------+
| Variable_name         | Value |
+-----------------------+-------+
| Handler_read_first    | 0     |
| Handler_read_key      | 4     |
| Handler_read_last     | 0     |
| Handler_read_next     | 0     |
| Handler_read_prev     | 0     |
| Handler_read_rnd      | 0     |
| Handler_read_rnd_next | 0     |
+-----------------------+-------+
7 rows in set (0.00 sec)

Сами запросы выполняются за 0.00 sec

Вывод:
Проверяйте индексы и статистику, апгрейдьте mysql.

Кто тестировал Оператор IN в MySQL? Насколько он быстр и есть ли альтернативы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт