Сортировка по множеству ключей, вычисляемых от самого элемента. Как минимизировать количество вычислений и расход памяти?

Question

nirvimel @nirvimel

Сортировка по множеству ключей, вычисляемых от самого элемента. Как минимизировать количество вычислений и расход памяти?

Это реальная задача, которая возникла у меня при написании одного фильтра для изображений. Все утро пытался ее выделить из контекста своей прикладной задачи и четко сформулировать.

Требуется реализовать функцию, которая принимает на вход массив из N элементов (тип не важен) и массив из M функций, которые могут быть вычислены от этих элементов и возвращают целочисленные значения. Реализуемая функция должна возвращать массив индексов элементов (из входного массива) в отсортированном массиве, никакого реального перемещением элементов с места на место не требуется. Сортировка идет по множеству ключей, которыми являются целочисленные значения, возвращаемые из соответствующих функций. Если для двух различных элементов первые ключи (то есть значения возвращаемые первой функцией) совпадают, то их порядок определяется по вторым ключам (значениям возвращаемым второй функцией), и.т.д. Дважды вычислять одну и ту же функцию от одного и того же элемента нет смысла. Также нет смысла производить вычисления, которые не необходимы для сортировки (фактически только первая функция будет вычисляться для всех элементов в любом случае). Плюс ко всему, память не резиновая, ее расход нужно по возможности сократить.

Я прихожу к выводу, что в худшем случае расход памяти составит O(N*M), что мне очень не нравится. Кто считает, что можно обойтись меньшими объемами, будет очень интересно услышать идеи. Также мне не нравится необходимость частых вызовов на динамическое выделение памяти.

На счет самого алгоритма: у меня в голове крутятся какие-то идеи насчет построения бинарных деревьев на каждом уровне сортировки, затем финальный проход по горизонтали сквозь весь "лес" для формирования выходного массива индексов. Но поиск/вставка в б-деревья требуют O(log N), а мне нужно O(1), как для линейных массивов. Но с линейными массивами я не смогу сэкономить память и получу N*M по объему даже для лучшего случая, а я уверен, что можно обойтись гораздо меньшими объемами за исключением худшего случая.
Возможно, я все усложняю, и существует какой-то простой и очевидный алгоритм.

Уважаемые коллеги, поделитесь своими соображениями по сабжу.

P.S.: ЯП в тегах условные.

Вопрос задан более трёх лет назад
668 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- 23 часа назад
- 38 просмотров
1

ответ
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- вчера
- 82 просмотра
2

ответа
C++

Простой
Почему не работает передача контекста между приложениями?
- 1 подписчик
- 19 дек.
- 62 просмотра
1

ответ
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- 18 дек.
- 168 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 213 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 68 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 188 просмотров
2

ответа
C++

Простой
Какой контейнер выбрать для поиска по ключу для разных размеров?
- 2 подписчика
- 14 дек.
- 144 просмотра
0

ответов
C++

+2 ещё

Простой
Как прочитать данные из пайпа в C++ не перепутав с TTY stdin?
- 1 подписчик
- 14 дек.
- 90 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 217 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2016-04-29 03:14:48

Есть предложение кэшировать значения функций вычисления ключа в какой-нибудь HashMap<Pair<N,M>, key_value>. Должно сработать если функции дольше вычислять чем возится с кэшем.
Примерный код:
https://gist.github.com/AtomKrieg/6fb6d3d8ae80842e...

Answer 2 · 2016-04-29 23:23:51

Я думаю, что соответствующий алгоритм на псевдокоде можно изобразить как-то так:

Создадим массив из N элементов типа Node и проинициализируем его:

class Node {
    int group;
    int key;
    int index;
}

Node[N] nodes;

for (int i = 0; i < N; i++) {
    nodes[i].group = 0;
    nodes[i].index = i;
}

Последовательность элементов с одинаковым значением поля group будем в дальнейшем называть группой. Таким образом, после инициализации мы имеем одну неотсортированную группу из N элементов.

Теперь будем сортировать этот массив в цикле по функциям, в каждой итерации мы будем ужесточать порядок в группах, которые содержат более одного элемента, т.е., еще не отсортированы:

for (int j = 0; j < M; j++) {
    // для каждой группы, содержащей более одного элемента
        // вычисляем значение ключа в каждом элементе этой группы
        // сортируем на месте элементы этой группы по этому ключу
        // разбиваем группу на подгруппы с одинаковым значением ключа, присваиваем подгруппам уникальные номера
    // если все группы содержат ровно по одному элементу, то досрочный выход из цикла
}

Суть алгоритма в том, что после выполнения j-ой итерации массив nodes оказывается побит на группы, содержащие ровно по одному элементу, и группы, содержащие элементы, которые нельзя различить, используя только функции с номерами меньше j. При этом сами группы между собой упорядочены.

По-моему, очевидно, что лишних вызовов функций вычисления ключа в этом алгоритме нет.

После завершения цикла все элементы в массиве nodes отсортированы, для ссылки на элементы исходного массива используется значение поля index.

Сортировка по множеству ключей, вычисляемых от самого элемента. Как минимизировать количество вычислений и расход памяти?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт