Как сравниваются перцептивные хэши?

Question

Александр Алексеев @alekseev_ap

Свободный разработчик

Как сравниваются перцептивные хэши?

О том, что такое перцептивные хэши в интернете есть много хороших и понятных статей. Однако, что происходит, когда мы задаём поиск по базе этих хэшей? С одной стороны, можно хэши проиндексировать. В этом случае поиск будет осуществляться очень быстро, но мы не сможем найти немного отличающиеся изображения. С другой стороны, можно осуществить поиск по всем хэшам в базе данныч. В этом случае, нам придётся вычислять расстояние Хэмминга для каждой пары (заданный образец и хэш из бады данных). Это даё т большую гибкость в поиске, но сам поиск становится очень медленным. Даже для миллиона хешей поиск будет идти десятки секунд! Так как же на самом деле их сравнивают?

Вопрос задан более трёх лет назад
285 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

Средний
Что такое отношения в предикатной логике?
- 1 подписчик
- 05 июл.
- 120 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 105 просмотров
1

ответ
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 301 просмотр
0

ответов
Математика

Простой
Биекция в комбинаторике на конечных множествах?
- 1 подписчик
- 30 апр.
- 134 просмотра
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 381 просмотр
3

ответа
Математика

Простой
Расчет формулы метода Фулмера. Что делать если при расчете логарифма на входе получается отрицательное число?
- 2 подписчика
- 30 мар.
- 264 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 216 просмотров
1

ответ
Программирование

+1 ещё

Простой
Стоит ли поступать в вуз на программу по математике, если в будущем хочешь иметь профессию, связанную с программированием?
- 4 подписчика
- 07 мар.
- 3550 просмотров
7

ответов
Математика

+1 ещё

Средний
Как решать задачу, пожалуйста?
- 1 подписчик
- 04 мар.
- 546 просмотров
2

ответа
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 273 просмотра
4

ответа
Показать ещё Загружается…

Answer 1 · 2021-05-27 11:54:11

Есть всякие индексы, позволяющие искать совпадение с несколькими ошибками. Конечно, там будет какое-то количество лишней работы, но все-равно просматривать надо лишь малую часть всех хешей в базе.

Например, можно проиндексировать все последовательности из n символов подряд в каждом хеше. Потом поискать в этом индексе все последовательности из n символов в образце. Потом хеши из получившегося списка уже проверить на расстояние хемминга. Если брать n < L/k, где L - длина хеша, а k -допустимое количество ошибок, то все нужные хеши попадут в список. Чем больше n, тем меньше лишнего будет в списке.

Другой пример - использование бора (trie). Все хеши складываются в бор. Потом там запускается рекурсивный алгоритм, который может сделать k ошибок (параметр функции). Он или идет по текущему символу или делает ошибку и идет по любой другому ребру, но уже там может сделать максимум k-1 ошибку. Конечно, этот метод будет заходить в тупики, но он обойдет лишь малую долю всего дерева.

Или, более оптимальный для поиска, но менее быстрый при добавлении вариант - в индексе хранятся все хеши со всем возможными ошибками. Он будет сильно жирнее, конечно, но поиск будет работать быстро.

Answer 2 · 2021-05-27 12:37:10

Например, можно проиндексировать все последовательности из n символов подряд в каждом хеше. Потом поискать в этом индексе все последовательности из n символов в образце. Потом хеши из получившегося списка уже проверить на расстояние хемминга. Если брать n < L/k, где L - длина хеша, а k -допустимое количество ошибок, то все нужные хеши попадут в список. Чем больше n, тем меньше лишнего будет в списке.

Это ж сколько последовательностей будет? Сотни? Тысячи? Для каждого хэша?

Другой пример - использование бора (trie). Все хеши складываются в бор. Потом там запускается рекурсивный алгоритм, который может сделать k ошибок (параметр функции). Он или идет по текущему символу или делает ошибку и идет по любой другому ребру, но уже там может сделать максимум k-1 ошибку. Конечно, этот метод будет заходить в тупики, но он обойдет лишь малую долю всего дерева.

Даже если и так, то где хранить этот бор? В ОЗУ? Накладно, да и невозможно при большой базе данных. Рипать с диска? Даже с SSD это займёт много (очень много) операций. Если даже предположить, что наш хэш состоит из 8x8 бит (8 байт), то кол-во вариантов даже с учётом 1 ошибки уже 64 штуки. Для двух ошибок - несколько тысяч!

Или, более оптимальный для поиска, но менее быстрый при добавлении вариант - в индексе хранятся все хеши со всем возможными ошибками. Он будет сильно жирнее, конечно, но поиск будет работать быстро.

Это вообще пипец! Думаю, Вы просто не понимаете, что размер индексов увеличится в тысячи раз даже для двух ошибок!

Если база маленькая, то проще, конечно же провести поэлементное сравнение. Меня интересует, как это делают большие ребята типа Яндекса или Гугла или TinEye.

Я написал свой алгоритм поиска изображений, который в корне отличается от перцептивных хэшей, но мне интересно знать, как у них всё работает. Неужно поиск по изображениям они делают на сотнях и тысячах серверов?

Answer 3 · 2021-06-05 18:25:09

Перцептивный хэш тем и хорош, что для слабо различающихся изображений он одинаковый.

А ещё можно организовать БД с этими хешами так, чтобы каждый хэш содержал ссылки на все хэши, которые от него мало отличаются. Ну или можно по ходе дела сгенерировать все хэши, отличающиеся от данного на один бит, на два бита, на три бита, etc; ну и запросить БД по этим вариациям.

Answer 4 · 2021-06-06 01:13:48

d'Ivan @2ord

Подсчет расстояния Хэмминга на большом наборе данных

Ответ написан более трёх лет назад

1 комментарий

Как сравниваются перцептивные хэши?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт