Есть ли что-то быстрее BK-Tree?

Question

Аркадий @p0is0n

Есть ли что-то быстрее BK-Tree?

Я собираюсь хранить много данных для поиска по ним с помощью «расстояния хемминга».

Объем ~1 000 000. Решил использовать BK дерево, но при том-же миллионе поиск получается долгий, примерно 10-20 секунд.

Само дерево: dumpz.org/192335/ (Cython)

Может есть другие, более быстрые алгоритмы?

Вопрос задан более трёх лет назад
4007 просмотров

1 комментарий

Подписаться 5 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

9 комментариев

Mrrl @Mrrl

еще в узле можно хранить маску битов, которая в данный момент общая для всех данных в этом поддереве. Позволит быстро отсекать совсем неправильные пути.

Написано более трёх лет назад
Аркадий @p0is0n Автор вопроса

Порог может быть 5-15.

Ваше решение немного не понял, можно чуть чуть подробней? (если возможно то с примером).

Написано более трёх лет назад
Mrrl @Mrrl
Питона я, к сожалению, не знаю. На псевдо-C++ основной класс и функция поиска могли бы выглядеть так (пример упрощенный, для 32-битных масок. И не проверялся):

struct tree{ int mbit,cmask,cbits; tree *z0,*z1; void find(int targ,int dist,ResAcc &res){ if(dist<0) return; int d=hamdist(targ&cmask,cbits&cmask); if(d>dist) return; if(cmask==-1){ res.Add(cbits); return; } int h=(targ&mbit) ? 1 : 0; z0->find(targ&~mbit,dist-h,res); z1->find(targ|mbit,dist-1+h,res); } }

Здесь mbit — маска бита, по которому происходит ветвление в данном узле дерева, cmask — маска битов, которые в данный момент одинаковы во всем поддереве, начинающемся с этого узла, а cbits — значения этих одинаковых битов. z0 — поддерево, для всех элементов которого бит mbit равен 0, а z1 — поддерево элементов, для которых он равен 1. Листья характеризуются тем, что в них cmask=-1, а z0=z1=NULL (в остальных узлах обе ссылки z0,z1 ненулевые). Значение, лежащее в листе — cbits.
К сожалению, эта структура тратит в 4-6 раз больше памяти, чем просто список масок. И понятно, что для длинных масок ее можно улучшить: хранить бит как индекс в массиве+маску в элементе массива, а расстояние считать тоже с учетом маски, не выполняя предварительно «and».
Как-то так. Дальше надо уже экспериментировать.
Написано более трёх лет назад
Mrrl @Mrrl

Попробовал реализовать на массивах на C. Получилось примерно 0.25 сек на поиск для D=15 (среднее число ответов — около 60000, поскольку множество масок было линейно связным в Z2^256)

Написано более трёх лет назад
Mrrl @Mrrl

Когда расстояние между соседними масками увеличилось до 10, то на поиск при D=15 стало тратиться 0.7 сек (и среднее число ответов — 3: сама маска и две соседних).

Написано более трёх лет назад
Аркадий @p0is0n Автор вопроса

Вот спасибо, это действительно получается быстро. Только я нормально не могу осилить что-то реализацию этого дерева :( Если вас не затруднит, можете показать мне Ваш тестовый пример на C.

Написано более трёх лет назад
Mrrl @Mrrl

Соптимизировал вычисление расстояния между масками — скорость возросла до 0.057 сек/поиск (при D=15).
Программа здесь: astr73.narod.ru/Files/testham.cpp. Правда, она без комментариев. Там функция FillBase как-то заполняет базу (параметры — число масок и расстояние между соседними масками), PrepareTree готовит базу к поиску, а Find — ищет соседей данной маски (результат скапливается в массиве Res, nres — число найденных соседей). В примере маски для поиска берутся из самой базы, но это не обязательно.

Написано более трёх лет назад
Аркадий @p0is0n Автор вопроса

Спасибо! *ушел разбираться*

Написано более трёх лет назад
Mrrl @Mrrl

Удачи! Она очень пригодится :)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 99 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 153 просмотра
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 141 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 137 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 252 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 296 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 164 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 277 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Уточню: Есть хеши 256 битные, они нужны для поиска похожих (или дубликатов) картинок

Answer 1 · 2012-04-04 17:09:49

Какого порядка расстояния, которые предполагаются в запросе?
Я бы взял обычное бинарное дерево (ветвление по значению какого-нибудь бита; в каждом узле указано, по какому биту ветвиться). Тогда поиск(дерево,d)=поиск(поддерево с правильным значением бита,d)+поиск(поддерево с неправильным значением бита,d-1).

Answer 2 · 2012-04-04 15:01:04

AxisPod @AxisPod

А к примеру воспользоваться специализированными средствами, например sphinx?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2012-04-04 16:34:02

akzhan @akzhan

VP-tree. stackoverflow.com/questions/6389841/efficiently-find-binary-strings-with-low-hamming-distance-in-large-set

Ответ написан более трёх лет назад

1 комментарий

Есть ли что-то быстрее BK-Tree?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт