Какой тип данных/структуру использовать для быстрой обработки промежутков?

Question

eegmak @eegmak

Какой тип данных/структуру использовать для быстрой обработки промежутков?

Есть элементы списка, каждому из которых принадлежит от одного до десяти математических отрезков на прямой целых чисел.
к примеру:
[1]=[от 1 до 10, от 14 до 15]
[2]=[от 3 до 7, от 14 до 15, от 34 до 37]
Пишу алгоритм который найдет все элементы в один из отрезков которых входит целое число
к примеру для числа 9 это только элемент [1]
для числа 35 это только элемент [2]
для числа 6 это оба элемента
для числа 50 таких элементов нет
В списке таких элементов может быть много, есть ли способы оптимизировать поиск принадлежности целого числа к множеству отрезкам множества элементов?

Вопрос задан более трёх лет назад
382 просмотра

9 комментариев

Подписаться 3 Простой 9 комментариев

Wataru @wataru Куратор тега Алгоритмы

Зависит от частоты операций. Как часто меняются отрезки, если меняются вообще. Как много ожидается элементов в списке, сколько в каждом элементе может быть отрезков? Какие ограничения на "целые числа" - границы отрезков и запросы.

Когда вы ответите на эти вопросы, можно будет выбрать оптимальный алгоритм. Можно поддерживать отрезки упорядоченными в каждом элементе списка и искать бинпоиском, можно все отрезки всех элементов сложить в двумерную структуру данных и искать что-то уже там. Можно вместо сортировки и бинпоиска использовать BST (map какой-нибудь - даже не знаю, что там в стандартной библиотеке есть в kotlin). Или вообще предподсчитать ответы для всех различных запросов. Вариантов куча.

Написано более трёх лет назад
eegmak @eegmak Автор вопроса

Wataru, отрезки для элемента не меняются, в каждом элементе минимум 1 отрезок максимум не ограничен (в среднем 5-10 отрезков) отрезки внутри элемента упорядочены и не пересекаются.
количество элементов не ограничено, целые числа отрезков от 0 до 2^20
я новичок в котлине и первое что пришло в голову это создать массив массивов для хранения отрезков и искать первое вхождение внутрь отрезка и выходить как только встречается отрезок с началом больше входного значения.
нможет действительно чтото в стандартной библиотеке есть такого, что можно применить для сохранения памяти и скорости работы

Написано более трёх лет назад
Wataru @wataru Куратор тега Алгоритмы

eegmak, А отрезки разных элементов могут сильно пересекаться? Может быть так, что ответ - вообще все элементы списка?

Написано более трёх лет назад
eegmak @eegmak Автор вопроса

Wataru, отрезки разных элементов могут совпадать или сильно пересекаться, исходный список больше чем ответ

Написано более трёх лет назад
Akina @Akina

Разделить "элементы" на отдельные отрезки. Т.е. не
[1]=[от 1 до 10, от 14 до 15]
а
[от 1 до 10]=[1]
[от 14 до 15]=[1]
Затем сортировать - по нижней границе, а при равенстве - по верхней.

Теперь для любого значения все номера "элементов", включающих это значение, ищутся бинарным поиском.

Написано более трёх лет назад
eegmak @eegmak Автор вопроса

Akina, не до конца понял вашу идею.
разделяем, сортируем по началу отрезков
сравниваем входное целое с началом отрезков из середины отсортированного нового списка?
если больше то нижняя половина списка отбрасывается?

Написано более трёх лет назад
Wataru @wataru Куратор тега Алгоритмы

Akina, Так нельзя. Просто бинпоиск тут не работает. Вот контр-пример:

[1..10], [2..9], [3..11].

Число 10 входит в первый и последний отрезок. И они не рядом.

Написано более трёх лет назад
Akina @Akina

eegmak, то, что я описываю, есть обычное одномерное R-Tree.

Написано более трёх лет назад
Wataru @wataru Куратор тега Алгоритмы

Akina, R-tree, в отличии от бинпоиска, будет работать. Вот только у него худшее время работы будет O(n).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 2

1 комментарий

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 287 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 203 просмотра
2

ответа
Telegram

+2 ещё

Простой
TdApi.GetChatHistory или как корректно вызвать вывод истории чата?
- 1 подписчик
- 23 окт.
- 134 просмотра
0

ответов
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 176 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 343 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 182 просмотра
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 157 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 244 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 192 просмотра
2

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Зависит от частоты операций. Как часто меняются отрезки, если меняются вообще. Как много ожидается элементов в списке, сколько в каждом элементе может быть отрезков? Какие ограничения на "целые числа" - границы отрезков и запросы.

Когда вы ответите на эти вопросы, можно будет выбрать оптимальный алгоритм. Можно поддерживать отрезки упорядоченными в каждом элементе списка и искать бинпоиском, можно все отрезки всех элементов сложить в двумерную структуру данных и искать что-то уже там. Можно вместо сортировки и бинпоиска использовать BST (map какой-нибудь - даже не знаю, что там в стандартной библиотеке есть в kotlin). Или вообще предподсчитать ответы для всех различных запросов. Вариантов куча.
Wataru, отрезки для элемента не меняются, в каждом элементе минимум 1 отрезок максимум не ограничен (в среднем 5-10 отрезков) отрезки внутри элемента упорядочены и не пересекаются.
количество элементов не ограничено, целые числа отрезков от 0 до 2^20
я новичок в котлине и первое что пришло в голову это создать массив массивов для хранения отрезков и искать первое вхождение внутрь отрезка и выходить как только встречается отрезок с началом больше входного значения.
нможет действительно чтото в стандартной библиотеке есть такого, что можно применить для сохранения памяти и скорости работы
eegmak, А отрезки разных элементов могут сильно пересекаться? Может быть так, что ответ - вообще все элементы списка?
Wataru, отрезки разных элементов могут совпадать или сильно пересекаться, исходный список больше чем ответ
Разделить "элементы" на отдельные отрезки. Т.е. не
[1]=[от 1 до 10, от 14 до 15]
а
[от 1 до 10]=[1]
[от 14 до 15]=[1]
Затем сортировать - по нижней границе, а при равенстве - по верхней.

Теперь для любого значения все номера "элементов", включающих это значение, ищутся бинарным поиском.
Akina, не до конца понял вашу идею.
разделяем, сортируем по началу отрезков
сравниваем входное целое с началом отрезков из середины отсортированного нового списка?
если больше то нижняя половина списка отбрасывается?
Akina, Так нельзя. Просто бинпоиск тут не работает. Вот контр-пример:

[1..10], [2..9], [3..11].

Число 10 входит в первый и последний отрезок. И они не рядом.
eegmak, то, что я описываю, есть обычное одномерное R-Tree.
Akina, R-tree, в отличии от бинпоиска, будет работать. Вот только у него худшее время работы будет O(n).

Answer 1 · 2021-07-05 22:20:28

Простой в реализации метод: держите отрезки в каждом элементе отсортированными и непересекающимеся (если два отрезка пересекаются - объедените их).

Далее при запросе пройдитесь по списку и для каждого элемента бинпоиском найдите самый правый отрезок, начало которого левее запроса. Проверьте, лежит ли запрос в отрезке. Это будет чуть быстрее наивного метода, но все-равно пройдется по многим элементам списка зря.

Если же список очень длинный, а ответ ожидается маленький, то есть более быстрый метод. Но он сложный в реализации. Нужно реализовать персистентное дерево поиска. Можно его реализовать на основе персистентного дерева отрезков. Это такая структура, в которую можно добавлять элементы, и удалять их за O(log n). Также можно обходить все элементы за O(log n + (их количество)). Кроме того, сохраняются все версии дерева после каждой операции и общее количество памяти будет O(к log n), где к - количество операций.

Эта структура будет использоватся для хранения предподсчитанных ответов. Если все ваши отрезки нарисовать на одной прямой, то она разобъется на O(n) отрезков, все точки которого будут давать один и тот же ответ при запросе. Мы эти все ответы компактно сохраним.

Используем метод сканирующей прямой. Нанесите все границы всех отрезков на одну прямую, пометив их как начало или конец (и какому элементу списка они соответствуют). Если пройтись по этой прямой слева на право, то будут происходить события - отрезки откроются (новый элемент добавляется в ответ) или отрезки закроются (элемент из ответа удалится). Поддерживая текущий ответ в персистентной структуре мы сильно экономим память. Удобно в качестве начал отрезка брать их координаты, а в качестве конца - координаты концов+1. В таком виде все границы отрезков будут точками, а не числами.

Итак, создайте массив из структур {координата, это начало или конец, номер элемента}. Отсортируйте по координате, потом по флагу начала. Потом пройдитесь по ней и при обработке начала отрезка - добавляйте номер элемента в персистентное дерево. При обработке конца - удаляйте элемент из дерева. Так же перед обработкой каждого элемента запишите в массив-ответ: {предыдущая координата, текущая координата, ссылка на текущую версию персистентного дерева}, если предыдущая координата строго меньше текущей. Этот массив-ответ будет хранить все возможные отрезки с различными наборами ответов в виде {координата начала, координата конца, ответ}.

Когда вы этот массив ответов предподсчитали, можно обрабатывать запросы - Найдите в массиве бинпоиском тот отрезок, которому текущая точка-запрос принадлежит. Вам надо бинпоиском найти самый правый отрезок, у которого начало меньше-равно числа-запроса. Потом проверьте, что координата конца строго больше запроса. В этом случае выводите в ответ обход персистентного дерева по известной версии.

Это решение требует O(n log n) памяти (где n - количество всех отрезков) и O(n log n) времени на предподсчет и O( log n + (ответ)) времени на обработку ответа.

Более простое решение, где ответы считаются так же сканирующей прямой, но сохраняются просто в виде списков, а не версий персистентного дерева, может требовать O(n^2) памяти. Но будет работать быстрее, конечно.

Answer 2 · 2021-07-06 12:22:02

ComodoHacker @ComodoHacker

https://en.wikipedia.org/wiki/Interval_tree

Ответ написан более трёх лет назад

Комментировать

Какой тип данных/структуру использовать для быстрой обработки промежутков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт