Как оптимизировать выборку с одновременной сортировкой?

Question

dollar @dollar

Делай добро и бросай его в воду.

Алгоритмы

Как оптимизировать выборку с одновременной сортировкой?

Есть большое множество элементов (в оперативной памяти), каждый из которых имеет некоторый набор тегов и вес (число, критерий для сортировки). Нужно сначала выбрать все элементы по 2-3 тегам, а потом из результата выбрать 10 штук с наибольшим весом.

С тегами вроде всё просто - это хеширование. Если раскидать ссылки на элементы по хеш-таблицам, то можно почти за O(1) выбрать все нужные. Но потом в любом случае придётся сортировать. Можно ли как-то оптимизировать эту сортировку или избавиться от неё? Потому что на счету каждая микросекунда.

Вопрос задан более трёх лет назад
99 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

Lynn «Кофеман» @Lynn

Для выбора 10 максимальных сортировка не нужна. Достаточно одного прохода.

Написано более трёх лет назад
Lynn «Кофеман» @Lynn

Но в целом непонятно почему нельзя просто взять хоть тот же mysql.

Написано более трёх лет назад
dollar @dollar Автор вопроса

Алексей Тен,
Для выбора 10 максимальных сортировка не нужна.

Постойте. Как это сделать без сортировки?

Написано более трёх лет назад
Lynn «Кофеман» @Lynn

Про один проход я кажется соврал, но линейный в среднем алгоритм есть https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D...

Написано более трёх лет назад
dmshar @dmshar

Алексей Тен, Да вроде не соврали. Именно за один проход выбирается K наибольших элементов неупорядоченного массива. Другое дело, что при обработке каждого нового элемента проводится его сравнение с ранее найденными K наибольшими ранее просмотренными на данный момент времени элементами массива. Но это фиксированная по времени операция.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Архитектор ПО

4 месяца

Далее
Stepik

Алгоритмы: теория и практика. Структуры данных

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 235 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 163 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 188 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 159 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 289 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 167 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 153 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 306 просмотров
3

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

C++ разработчик (Поиск)

Сбер • Москва

от 250 000 до 400 000 ₽

Для выбора 10 максимальных сортировка не нужна. Достаточно одного прохода.
Но в целом непонятно почему нельзя просто взять хоть тот же mysql.
Алексей Тен,
Для выбора 10 максимальных сортировка не нужна.

Постойте. Как это сделать без сортировки?
Про один проход я кажется соврал, но линейный в среднем алгоритм есть https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D...
Алексей Тен, Да вроде не соврали. Именно за один проход выбирается K наибольших элементов неупорядоченного массива. Другое дело, что при обработке каждого нового элемента проводится его сравнение с ранее найденными K наибольшими ранее просмотренными на данный момент времени элементами массива. Но это фиксированная по времени операция.

Answer 1 · 2019-08-16 20:43:06

В общем, оказалось, что существенно ускорить алгоритм можно, если хоть капельку известна природа исходных данных.

Если известно распределение и границы, то почти точно вычисляем порог, выше которого будут наши 10 элементов. Раскладываем массив на две части (выше порога и ниже порога) за O(N). Даже если набрали 11-12 элементов больше порога, то за O(мало) уже смело сортируем и находим 10.
Если распределение не известно, но известны границы (то есть минимум и максимум), то делаем предположение, что распределение равномерное, после чего вычисляем порог и задача сводится к предыдущему пункту.
Если границы не известны, то за O(N) вычисляем минимум и максимум, после чего задача сводится к предыдущему пункту.

Конечно, всегда можно специально подсунуть такие данные, что алгоритм будет не эффективен. Но противодействие такому за рамками вопроса.

Answer 2 · 2019-08-08 12:10:58

Куча/heap. Стройте кучу длиной 10 штук, пока выбираете. Куча может быть очень эффективно представлена массивом, имеет качественные реализации на почти всех языках. Ваша задача - академический пример применения кучи.

Как оптимизировать выборку с одновременной сортировкой?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт