Как сравниваются перцептивные хэши?

Question

Александр Алексеев @alekseev_ap

Свободный разработчик

Как сравниваются перцептивные хэши?

О том, что такое перцептивные хэши в интернете есть много хороших и понятных статей. Однако, что происходит, когда мы задаём поиск по базе этих хэшей? С одной стороны, можно хэши проиндексировать. В этом случае поиск будет осуществляться очень быстро, но мы не сможем найти немного отличающиеся изображения. С другой стороны, можно осуществить поиск по всем хэшам в базе данныч. В этом случае, нам придётся вычислять расстояние Хэмминга для каждой пары (заданный образец и хэш из бады данных). Это даё т большую гибкость в поиске, но сам поиск становится очень медленным. Даже для миллиона хешей поиск будет идти десятки секунд! Так как же на самом деле их сравнивают?

Вопрос задан более двух лет назад
246 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 2 часа назад
- 47 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 21 час назад
- 98 просмотров
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- вчера
- 422 просмотра
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 71 просмотр
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 102 просмотра
3

ответа
JavaScript

+1 ещё

Простой
Как масштабировать число с идеальной точностью?
- 1 подписчик
- 13 апр.
- 142 просмотра
1

ответ
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5383 просмотра
3

ответа
Unity

+1 ещё

Средний
Как вычислить насколько далеко улетит игрок?
- 1 подписчик
- 10 апр.
- 118 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как узнать, входит ли игрок1 (x,y,z) в поле игрок2 (x,y,z)?
- 1 подписчик
- 08 апр.
- 190 просмотров
3

ответа
C++

+1 ещё

Простой
Как решить данную задачу при помощи префиксного дерева?
- 2 подписчика
- 05 апр.
- 196 просмотров
1

ответ
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Разработать несистемный алерт

19 апр. 2024, в 20:11

500 руб./за проект

Answer 1 · 2021-05-27 11:54:11

Есть всякие индексы, позволяющие искать совпадение с несколькими ошибками. Конечно, там будет какое-то количество лишней работы, но все-равно просматривать надо лишь малую часть всех хешей в базе.

Например, можно проиндексировать все последовательности из n символов подряд в каждом хеше. Потом поискать в этом индексе все последовательности из n символов в образце. Потом хеши из получившегося списка уже проверить на расстояние хемминга. Если брать n < L/k, где L - длина хеша, а k -допустимое количество ошибок, то все нужные хеши попадут в список. Чем больше n, тем меньше лишнего будет в списке.

Другой пример - использование бора (trie). Все хеши складываются в бор. Потом там запускается рекурсивный алгоритм, который может сделать k ошибок (параметр функции). Он или идет по текущему символу или делает ошибку и идет по любой другому ребру, но уже там может сделать максимум k-1 ошибку. Конечно, этот метод будет заходить в тупики, но он обойдет лишь малую долю всего дерева.

Или, более оптимальный для поиска, но менее быстрый при добавлении вариант - в индексе хранятся все хеши со всем возможными ошибками. Он будет сильно жирнее, конечно, но поиск будет работать быстро.

Answer 2 · 2021-05-27 12:37:10

Например, можно проиндексировать все последовательности из n символов подряд в каждом хеше. Потом поискать в этом индексе все последовательности из n символов в образце. Потом хеши из получившегося списка уже проверить на расстояние хемминга. Если брать n < L/k, где L - длина хеша, а k -допустимое количество ошибок, то все нужные хеши попадут в список. Чем больше n, тем меньше лишнего будет в списке.

Это ж сколько последовательностей будет? Сотни? Тысячи? Для каждого хэша?

Другой пример - использование бора (trie). Все хеши складываются в бор. Потом там запускается рекурсивный алгоритм, который может сделать k ошибок (параметр функции). Он или идет по текущему символу или делает ошибку и идет по любой другому ребру, но уже там может сделать максимум k-1 ошибку. Конечно, этот метод будет заходить в тупики, но он обойдет лишь малую долю всего дерева.

Даже если и так, то где хранить этот бор? В ОЗУ? Накладно, да и невозможно при большой базе данных. Рипать с диска? Даже с SSD это займёт много (очень много) операций. Если даже предположить, что наш хэш состоит из 8x8 бит (8 байт), то кол-во вариантов даже с учётом 1 ошибки уже 64 штуки. Для двух ошибок - несколько тысяч!

Или, более оптимальный для поиска, но менее быстрый при добавлении вариант - в индексе хранятся все хеши со всем возможными ошибками. Он будет сильно жирнее, конечно, но поиск будет работать быстро.

Это вообще пипец! Думаю, Вы просто не понимаете, что размер индексов увеличится в тысячи раз даже для двух ошибок!

Если база маленькая, то проще, конечно же провести поэлементное сравнение. Меня интересует, как это делают большие ребята типа Яндекса или Гугла или TinEye.

Я написал свой алгоритм поиска изображений, который в корне отличается от перцептивных хэшей, но мне интересно знать, как у них всё работает. Неужно поиск по изображениям они делают на сотнях и тысячах серверов?

Answer 3 · 2021-06-05 18:25:09

Перцептивный хэш тем и хорош, что для слабо различающихся изображений он одинаковый.

А ещё можно организовать БД с этими хешами так, чтобы каждый хэш содержал ссылки на все хэши, которые от него мало отличаются. Ну или можно по ходе дела сгенерировать все хэши, отличающиеся от данного на один бит, на два бита, на три бита, etc; ну и запросить БД по этим вариациям.

Answer 4 · 2021-06-06 01:13:48

Everything_is_not_so_bad @2ord

Подсчет расстояния Хэмминга на большом наборе данных

Ответ написан более двух лет назад

1 комментарий

Как сравниваются перцептивные хэши?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт