Быстрый алгоритм поиска

Question

vad4 @vad4

Алгоритмы

Быстрый алгоритм поиска

Есть большой массив объектов. Объект имеет несколько атрибутов. Атрибут может принимать булевое значение или число (как целове так и вещественное).
Пример:

Объект 1:
атрибут 1: true
атрибут 2: 2
атрибут 3: 22.43

Объект 2:
атрибут 1: false
атрибут 2: 5
атрибут 3: 10.7

и тд.

Как максимально быстро реализовать возможность поиска по атрибутам в таком массиве? Причем можно задавать диапазоны поиска, то есть: покажи мне все объекты у которых атрибут 1: false, атрибут 2: от 1 до 90 и тд.
Задача похожа на запросы к БД. Интересно каким образом там это реализовано.
В голову пришло пока что ток одно: сделать для каждого атрибута бинарные деревья поиска.

Вопрос задан более трёх лет назад
8963 просмотра

5 комментариев

Подписаться 6 Оценить 5 комментариев

xappymah @xappymah

Универсальный алгоритм для такой постановки задачи вряд ли найти можно. Нужно уточнить определенные детали, чтобы на их основе создавать базу для оптимизации поиска.
Во-первых, как часто объекты вообще вставляются в этот массив и удаляются? А то какая-нибудь сверх-хитрая и быстрая структура данных может оказаться деоптимизацией из-за того, что очень дорогие вставки происходят чаще, чем происходит поиск.
Во-вторых, насколько атрибуты равноправны между собой? Если поиск по одному атрибуту происходит гораздо чаще, чем по другому, то на этой почве можно что-нибудь выиграть, иначе же нужен универсальный, а не спекулятивный алгоритм.

Написано более трёх лет назад
ivsedm @ivsedm

А засунуть все это в БД и переложить часть работы по оптимизации запросов на нее нельзя?

Написано более трёх лет назад
alesto @alesto

А можете подробнее описать где у Вас такой массив?

Написано более трёх лет назад
vad4 @vad4 Автор вопроса

Скорость вставака и удаление не имеет значения. Есть массив с ним надо что то сделать что бы потом быстро по нему осуществлять поиск. Атрибуты полностью равноправны. В БД засунуть нельзя. Задание из разряда искуствено выдуманных

Написано более трёх лет назад
Kindman @Kindman

тогда можно (до-кучи) придумать несколько дополнительных ограничений на значения атрибутов 2 и 3, и затем свести все к битовой маске.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 7

Комментировать

3 комментария

vad4 @vad4 Автор вопроса

Проблема в том что булевых значений очень мало один, два атрибута. Линейный не устраивает потому что данных много 100М. Хотелось бы каким то образом подготовить массив один раз а дальше производить быстро поиск. Так же не важно сколько времени занимает вставка, удаление объекта.

Написано более трёх лет назад
ivsedm @ivsedm

Ну фактически получается, что нужно заранее составить все возможные комбинации элементов (до определенной степени), правильно?

Написано более трёх лет назад
xappymah @xappymah

@ivsedm, можно сказать и так. В случае с булевскими параметрами это получается естественным образом — множество комбинаций бинарных значений легко отображается в целые числа.

Написано более трёх лет назад

2 комментария

xappymah @xappymah

Сортировка так или иначе происходит по одному определенному параметру, относительно которого обработчик выдает результат при сравнении. В данном же случае имеется набор аттрибутов, по которым невозможно создать один единственный универсальный параметр для сравнения.

Написано более трёх лет назад
Анатолий @taliban
>.< Поиск, да, туплю =) Я прочитал как сортировка. В любом случае для поиска есть аналогичные функции. для пхп например, можно задавать условия вида:

$condition = array( 'field' => 'field1', 'type' => 'interval(9-20)' ) $condition = array( 'field' => 'field1', 'type' => 'gt(9)'// все что больше 9 ) $condition = array( 'field' => 'field1', 'type' => 'eq(9)' // все что меньше 9 ) Filter::filter( $arrayObj, $condition );

Такие условия зарбирать просто, тип поля определить тоже просто.
Написано более трёх лет назад

Комментировать

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 278 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 193 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 204 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 171 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 336 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 178 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 157 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 313 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Универсальный алгоритм для такой постановки задачи вряд ли найти можно. Нужно уточнить определенные детали, чтобы на их основе создавать базу для оптимизации поиска.
Во-первых, как часто объекты вообще вставляются в этот массив и удаляются? А то какая-нибудь сверх-хитрая и быстрая структура данных может оказаться деоптимизацией из-за того, что очень дорогие вставки происходят чаще, чем происходит поиск.
Во-вторых, насколько атрибуты равноправны между собой? Если поиск по одному атрибуту происходит гораздо чаще, чем по другому, то на этой почве можно что-нибудь выиграть, иначе же нужен универсальный, а не спекулятивный алгоритм.
А засунуть все это в БД и переложить часть работы по оптимизации запросов на нее нельзя?
А можете подробнее описать где у Вас такой массив?
Скорость вставака и удаление не имеет значения. Есть массив с ним надо что то сделать что бы потом быстро по нему осуществлять поиск. Атрибуты полностью равноправны. В БД засунуть нельзя. Задание из разряда искуствено выдуманных
тогда можно (до-кучи) придумать несколько дополнительных ограничений на значения атрибутов 2 и 3, и затем свести все к битовой маске.

Answer 1 · 2011-10-20 15:50:39

Бинарные деревья по каждому элементу — сложность получается все равно как O(N), т.к. результаты все равно надо объединять. Даже если их представить как множества, то все равно для объединения надо проходить по всему массиву.

Answer 2 · 2011-10-20 15:56:01

С предложенным вариантом, все равно остается сложность со слиянием результатов поиска по каждому из атрибутов. В этом случае большое значение будет иметь еще и порядок сравнения атрибутов. К примеру, если отобрать все записи по атрибуту 1, получим гигантскую кучу из половины всех записей (если равномерное распределение), потом их нужно пересечь с результатами по атрибуту 2 и т.д.
Плюс еще возникает задача как быстро сделать пересечение результатов.
Я в таком случае сделал бинарный поиск по самому частому и самому разнообразному атрибуту, занеся результаты в список. А дальше уже отбирал по этому списку элементы, которые подходят под другие условия, а неподходящие удаляя из списка. В результате остается только результат запроса.

Answer 3 · 2011-10-20 16:19:16

Как один из вариантов оптимизации поиска: факторизация всех объектов по булевским аттрибутам. То есть объекты делятся на непересекающиеся группы с различными комбинациями булевских параметров.
Имеется массив с количеством элементов, равным количеству групп.
Каждая группа объединяется в список и за голову цепляется за соответствующий элемент массива.

Таким образом, имея запрос с булевскими параметрами можно за почти константное время (ограниченное сверху) можно найти все такие фактор-группы и линейно по ним пройтись, отбирая элементы по другим параметрам.

Сами списки можно также факторизовать по какому-нибудь часто-используемому атрибуту (потребуется набор индексов, для нахождения соответствующих фактор-групп) или просто отсортировать.

Но все приведенное выше является не более чем оптимизацией поиска. В худшем случае все равно будет линейное время.

(кстати, а чем линейная сложность автора не устраивает?)

Answer 4 · 2011-10-20 18:56:13

В каждом языке есть функция сортировки которая принимает одним параметром массив, а вторым функцию обработчик, которая должна вернуть -1/0/1 и в зависимости от этого результата сортировка происходит как хочет разработчик. Почему бы Вам не воспользоваться этим?

Answer 5 · 2011-10-21 06:56:50

В качестве расширения своего предыдущего предложения — оптимизация для сужения множества поиска.

Откинем булевские атрибуты, считая их целочисленными для универсальности.
Имеем атрибуты A1, A2… An. Каждый из этих атрибутов имеет некоторый диапазон значений.
Для каждого атрибута разбиваем соответствующий диапазон на k_i кусков, каждый из которых обозначим через Ai_1, Ai_2...Ai_k_i.

Далее, имеем множество всех объектов ALL с упомянутыми атрибутами.
Возьмем атрибут A1 и разобьем множество ALL на непересекающиеся подмножества ALL_A1_j, где 1 <= j <= k_1, такие, что ALL_A1_j содержит объекты, у которых значение атрибута A1 находится в диапазоне A1_j.

Далее, с каждым этим подмножеством производится аналогичное разбиение по атрибуту A2. Потом каждое подмножество разбивается по значениям атрибута A3 и так далее до An.

Таким образом имеется дерево разбиения множества ALL по диапазонам значений всех атрибутов.

Теперь, можно считать, что при поиске заданы желаемые диапазоны для всех атрибутов: если какой-то атрибут при поиске не указан, значит желаемым диапазон — множество всех значений атрибута.
Для каждого атрибута Ai в начале отбираются такие диапазоны Ai_k, которые пересекаются с желаемым.

После этого делается обход по дереву разбиений в глубину: то есть, начиная от корня ALL идем в ALL_A1_k1, из которого в ALL_A1_k1_A2_k1 и так далее, пока не получим некоторое подмножество объектов, из которых линейным образом отбираются нужные, после этого возвращаемся на шаг назад и идем дальше.

В худшем случае, обход по дереву разбиений может иметь линейную сложность, а по факту, чуть хуже, чем простой линейный перебор.
Но при удачном выборе порядка атрибутов и диапазонов разбиений круг поиска может уменьшиться во много раз (вплоть до вырожденного случая, когда параметрам поиска будет соответствовать строго одно подмножество, которое находится за константное время).

Answer 6 · 2011-10-21 10:28:53

Очень интересная и актуальная задача! Спасибо!

Про ограничения по памяти и серверов ничего не сказано, поэтому моё решение след:

присвоить каждому объекту номер 1,2,3,4,5
строим независимый индекс по каждому атрибуту (если значения атрибута совпадают, сортируем по номеру объекта)

запрос разбиваем на части и по каждому индексу можем за o(log(n)) = o(log(100M))=19 операций узнать сколько объектов будет в результате если будем фильтровать только по этому одному атрибуту.

дальше можно сделать выборку по одному атрибуту и проверять все остальные условия
или
мержить списки номеров объектов

Answer 7 · 2011-10-21 12:55:49

О, моя любимая задача. Есть такое UB-Tree (плюс в Википедии ссылки полезные) ~~из того же материала~~ от того же Рудольфа Бауэра, что изобрел и B-Tree. На мой взгляд, правда, слишком оно головоломное, и сам я его не испытывал.

Быстрый алгоритм поиска

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт