Существует ли «база данных», в которой бы можно было сделать выборку N случайных записей из отфильтрованного по условиям набора?

Question

Сергей Савостин @savostin

Еще один программист

Существует ли «база данных», в которой бы можно было сделать выборку N случайных записей из отфильтрованного по условиям набора?

Подскажите пожалуйста существует ли "база данных", в которой бы можно было сделать выборку N случайных записей из отфильтрованного по условиям набора?
Псевдокод:

SELECT id, name, param1, param2 
FROM table 
WHERE param1 = some_value 
AND param2 > another_one 
ORDER BY RANDOM() 
LIMIT @N

MySQL, да и, наверное, другие популярные базы, от такого запроса умирают, естественно.
Всякие обходные костыли, типа дополнительное поле с рандомом, перемешивать по крону, составлять запросы на лету и процедуры и пр. не совсем подходят - нужно действительно при каждом запросе отдавать рандомные строки, N > 10000, id с дырами, объемы большие. Может быть есть что-то специализированное? Не обязательно SQL. Может даже сервис, хоть и не желательно.

Вопрос задан более трёх лет назад
3128 просмотров

10 комментариев

Подписаться 4 Оценить 10 комментариев

zvorygin @zvorygin

А сколько всего записей в базе, и сколько хочется выбирать за раз?

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

Записей точно больше 5 млн. Выбирать сколько закажет пользователь, ожидается 10000+

Написано более трёх лет назад
Ilyas Masirov @IlyasMasirov

В статье Худсона очень хорошо описана оптимизация случайной выборки :)

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

IlyasMasirov, ссылка на эту статью у меня в вопросе. К сожалению для N > 10000 не подходит.

Написано более трёх лет назад
zvorygin @zvorygin

А какой размер в байтах одной записи?

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

zvorygin, до 1 кб

Написано более трёх лет назад
zvorygin @zvorygin

А данные буду часто модифицироваться? Удаляться/обновляться. Много ли будет параллельных запросов? Какое приемлемое время отклика ожидается?

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

Обновляться почти не будут (справочник).
Запросов достаточно много (веб-сервис), особенно с учетом длительности запроса.
Ну, 2 секунды (если применять ORDER BY RAND в MySQL) уже мучительно много, мне кажется.

Написано более трёх лет назад
zvorygin @zvorygin

А в MySQL успевает за 2 секунды без фильтров перелопатить 5Гб базу на 5Млн записей? Разве только если вся база в память влезает....

Написано более трёх лет назад
zvorygin @zvorygin

Если можно все хранить в памяти, тогда намного проще, мне кажется...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

5 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

Комментировать

2 комментария

3 комментария

Сергей Савостин @savostin Автор вопроса

Так вроде бы в MongoDB этот feature request тянется еще с 2010 года и "planned but not scheduled": https://jira.mongodb.org/browse/SERVER-533

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

И в MapReduce, если не врет Google, такие же костыли - делать счетчик при обходе...

Написано более трёх лет назад
TomaZ Vazovsky @Keksinautin

К слову о MapReduce, насколько я знаю, в рамках монги единовременно может выполняться только один MapReduce.
А вообще чем поможет монга? Да она быстрей отдает данные по ключу (потому что держит индекс в озу), но "нативного рандомизирования" нет и там. Может как-нибудь упросить задачу ее курсор, но у SQL тоже есть курсоры, если мне не изменяет память.

Написано более трёх лет назад

3 комментария

Сергей Савостин @savostin Автор вопроса

Приложение/сервис и пишется. Вопрос где хранить столько данных и как их доставать. Если бы не фильтрация, можно было бы в бинарном файле с фиксированной длиной записи. Но фильтрование подразумевает перебор всех записей. Сомневаюсь, что у меня получится сделать велосипед лучше, чем у Oracle ;(

Написано более трёх лет назад
zvorygin @zvorygin

@savostin, так а в памяти можно все хранить?

Написано более трёх лет назад
Сергей Савостин @savostin Автор вопроса

сильно сомневаюсь. так бы никаких проблем не было ;)

Написано более трёх лет назад

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 297 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 286 просмотров
3

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 309 просмотров
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 168 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 977 просмотров
5

ответов
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 209 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 161 просмотр
1

ответ
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек. 2025
- 346 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб. 2025
- 330 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 118 просмотров
0

ответов
Показать ещё Загружается…

А сколько всего записей в базе, и сколько хочется выбирать за раз?
Записей точно больше 5 млн. Выбирать сколько закажет пользователь, ожидается 10000+
В статье Худсона очень хорошо описана оптимизация случайной выборки :)
IlyasMasirov, ссылка на эту статью у меня в вопросе. К сожалению для N > 10000 не подходит.
А какой размер в байтах одной записи?
А данные буду часто модифицироваться? Удаляться/обновляться. Много ли будет параллельных запросов? Какое приемлемое время отклика ожидается?
Обновляться почти не будут (справочник).
Запросов достаточно много (веб-сервис), особенно с учетом длительности запроса.
Ну, 2 секунды (если применять ORDER BY RAND в MySQL) уже мучительно много, мне кажется.
А в MySQL успевает за 2 секунды без фильтров перелопатить 5Гб базу на 5Млн записей? Разве только если вся база в память влезает....
Если можно все хранить в памяти, тогда намного проще, мне кажется...

Answer 1 · 2014-01-21 20:57:51

Если нужен именно честный выбор действительно случайных и равномерно распределённых 10000 строк из пятимиллионной таблицы, то лучше SQL с этой задачей ничто не справится. Разве что самописная база, заточенная конкретно под этот случай. Нужно просто расставить индексы на нужные поля, чтобы облегчить поиск.
Мой совет: добавьте памяти на сервер, проиндексируйте поля. Всё будет хорошо, используйте стандарный RAND(), оптимизировав его до приемлемого значения.

Для редких случаев ещё помогает выборка массива ID по условию и дальнейший выбор нужного количества случайных ID из массива.

Answer 2 · 2014-01-21 12:07:02

А почему нельзя просто сначала сделать выборку (отфильтровать по условию), а потом из нее, выбрать сколько нужно случайных по порядку записей?

Может быть еще вот эта статья будет полезна akinas.com/pages/en/blog/mysql_random_row

Answer 3 · 2014-01-21 12:10:20

egor_nullptr @egor_nullptr

Смотрите в сторону MongoDB и MapReduce.

Ответ написан более трёх лет назад

3 комментария

Answer 4 · 2014-01-22 11:15:04

Тогда, мне кажется, самое простое, быстрое и правильное решение - написать свое приложение (или сервис, если так удобнее), которое будет хранить все эти данные в сыром файле и за один проход выдавать нужный список. Тогда можно будет выполнять такие запросы "относительно быстро" - меньше чем за одну минуту, причем в независимости от того, сколько одновременно запросов будет выполняться.

Причем выборка будет максимально честной. А вообще - можно взять на вооружение как интересную задачку для интервью)

Answer 5 · 2014-01-22 13:05:20

Тогда, если учесть, что запросы могут быть какими угодно, вам надо будет на каждый запрос читать всю таблицу хотя бы для того чтобы отфильтровать(хоть самописное у вас, хоть oracle, хоть mysql) - т.е. читать 5Гб (это самый медленный момент во всей системе). Если взять скорость последовательного чтения(а случайное чтени + SSD вам не помогут, как мне кажется), то время чтения будет порядка 5Гб/150МБс т.е. около 30 секунд. Если предположить что записи меняются редко, то можно все это дело дополнительно сжать(зависит от реальных данных) - хранить записи не фиксированной длины - возможно еще процентов 15(или больше) экономии выжмется - итого 25 секунд. Можно применить RAID и ускорить еще в пару раз(или в большее - в зависимости от реализации) - итого получаем 15 секунд на запрос. Никакие стандартные кеши при последовательном чтении не помогут, но можно попробовать просто забить всю свободную память кусками данных - и к ним обращаться не с диска - это дает еще 2Гб в памяти и, на вскидку экономию в 30-40 процентов. Итого, мне кажется, 10 секунд - довольно хороший гарантированный и достижимый результат на почти любых фильтрах и запросах. Если есть заранее известные данные о фильтрации, то можно пробовать как-то по-другому оптимизировать.

Answer 6 · 2014-01-25 11:25:42

Я не знаю как это сделать в MySQL однако решала такую задачу в sql server . Так вот идея такая - добавляется дополнительное поле в запрос в котором вычисляется функция уникального номера, а в ордере указывается это поле, несмотря на ваши условия выборки. Далее выставите top 10000. Вот и все. Правда не знаю насколько он быстро выполниться, хотя думаю 10000 строк это не много для запроса в SQL Server...
Пример
SELECT TOP 10000 [StudentKID]
,[SKPersRecN]
,[SKSurname]
,[SKName]
,[SKSecondName]
,[FacultyID], NewId() as t
FROM [StudentsKredit]
where FacultyID='ИУБ'
order by t

Существует ли «база данных», в которой бы можно было сделать выборку N случайных записей из отфильтрованного по условиям набора?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт