Как организовать поиск среди миллиона и более изображений?

Question

Ринат Бакиев @bakiev

Как организовать поиск среди миллиона и более изображений?

Есть задача поиска похожих изображений в базе. Решение сделали на нейронках (keras), выдергиваем фичи из картинок при помощи сетки vvg16 (слой 4096). Работает приемлемо на небольших объемах, используем косинусное расстояние.
Проблема в том что база очень большая... около 1млн картинок и это не предел. Вектора на 100.000 весят примерно 5-7 гб. Соответственно на 1млн картинок векторов на 50-70гб. Поиск медленный и база в ОЗУ уже не помещается, а с диска очень долго. Причем база будет пополняться, меняться и хранить ее в виде одного файла hd5 не удобно.

Пока пошли таким путем. Загоняем все вектора в базу данных (к примеру mariadb, хотим PostgreSQL). Потом загружаются вектора партиями и хешируются решением (https://github.com/pixelogik/NearPy). В памяти остается как бы хеши к базе и айди картинок. Поиск быстрый, весит мало, но не точный (сравниваются уже не косинусы, а похожие находятся по чувствительному хэшу)

Может знает кто еще другие решения?

Вопрос задан более трёх лет назад
4770 просмотров

3 комментария

Подписаться 24 Сложный 3 комментария

d'Ivan @2ord

Поиск насколько медленный? Хотел бы понять на примерах какие картинки считаются практически идентичными, близко похожими, а какие несхожими. Скажем на одном изображении тарелку на столе сдвинули с места на 5 см. Это будет считаться схожими или разными?

Написано более трёх лет назад
Рустам Салаватов @fortunato

Роман Мирр: если сдвинули будет похожии... даже если повернули немного, и если сняли немного под другим углом, цветом. Это сейчас получается с помощью векторов vgg16 делать, не идеально... но получается.

вот в основе тут описано https://habrahabr.ru/post/314490/

Написано более трёх лет назад
hOtRush @hOtRush

не особо в теме, но почему не использовать elasticsearch или подобные?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 9

1 комментарий

3 комментария

Рустам Салаватов @fortunato

спасибо, интересно. но есть да свои минусы судя по статье... ищет только дубликаты или часть а не похожии. и скорость вроде тоже не очень быстрая. У вас какая скорость?
Надо отклик в не более 1-2 секунд в идеале

Написано более трёх лет назад
Рустам Салаватов @fortunato

и это как раз похоже на работу с хешем, как тут https://github.com/pixelogik/NearPy

Написано более трёх лет назад
d'Ivan @2ord
Рустам Салаватов: Алгоритм pHash находит различия в изображения, между которыми небольшие отличия в цвете, когда объект немного сдвигается с места, изображение перевёрнуто по вертикали. Отличия выражаются в расстоянии Хэмминга между двумя хэшами, которое можно подобрать экспериментально, в зависимости от нужд, или использовать в запросах каждый раз как пользовательский параметр.

В SQL запросе выше определяются любые дубликаты в коллекции изображений.
Для определения дубликатов у заданного изображения нужен другой запрос:
SELECT hamming_distance('e00e2f5e780fe7c0', phash) as dist, name FROM images WHERE dist between 1 and 8

Проект мой экспериментальный, он едва начат и ещё не производил замеров скорости отклика. Пока использовал лишь SQLite. Нужно произвести замеры и постараюсь позже написать результаты.
Написано более трёх лет назад

2 комментария

Комментировать

2 комментария

4 комментария

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 55 просмотров
0

ответов
Сетевое администрирование

+2 ещё

Простой
Большая задержка в появлении файлов на сетевом диске. Как устранить проблему?
- 2 подписчика
- 13 авг.
- 278 просмотров
1

ответ
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 89 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 109 просмотров
0

ответов
PostgreSQL

Простой
Как правильно реализовать перевод данных из STG в ODS при помощи SCD2 в PostgreSQL?
- 1 подписчик
- 11 авг.
- 43 просмотра
0

ответов
Компьютерные сети

+1 ещё

Простой
Какой есть софт для общей папки (3-5 пользователей Windows в локалке)?
- 5 подписчиков
- 10 авг.
- 4008 просмотров
12

ответов
Хранение данных

Средний
Альтернативный Linux для Huawei OceanStore 5300 V3?
- 1 подписчик
- 05 авг.
- 48 просмотров
0

ответов
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 257 просмотров
3

ответа
PostgreSQL

Простой
Почему возникает ошибка «authentication method 10 not supported»?
- 1 подписчик
- 31 июл.
- 85 просмотров
0

ответов
Windows

+2 ещё

Средний
В Windows не видит второй монитор хотя при запуске ПК все работает, почему?
- 1 подписчик
- 26 июл.
- 260 просмотров
2

ответа
Показать ещё Загружается…

DBA Postgresql

Outlines Tech • Москва

До 300 000 ₽

DBA (PostgreSQL)

СберТех • Москва

До 420 000 ₽

Инженер баз данных

Сбер • Санкт-Петербург

До 100 000 ₽

Поиск насколько медленный? Хотел бы понять на примерах какие картинки считаются практически идентичными, близко похожими, а какие несхожими. Скажем на одном изображении тарелку на столе сдвинули с места на 5 см. Это будет считаться схожими или разными?
Роман Мирр: если сдвинули будет похожии... даже если повернули немного, и если сняли немного под другим углом, цветом. Это сейчас получается с помощью векторов vgg16 делать, не идеально... но получается.

вот в основе тут описано https://habrahabr.ru/post/314490/
не особо в теме, но почему не использовать elasticsearch или подобные?

Answer 1 · 2016-12-16 19:44:51

Судя по : https://www.cs.toronto.edu/~frossard/post/vgg16/vg...
Я бы сделал следующее :
Хранил бы :
- изображение (возможно - уменьшенные копии)
- 4096-компонентный вектор
- выходной вектор (который из 1000 компонентов)
Возможно бы снизил размерность ещё слоем, но это уже потребует дообучения сети.

Тогда :
- сперва извлекаем из изображения векторы (на 1000/4096 компонентов)
- считаем косинусное расстояние по меньшему вектору.
- отбрасываем варианты, у которых косинусное расстояние больше определенной границы
- считаем расстояние по большему вектору
- отбрасываем варианты с большим расстоянием
- среди оставшихся - сравниваем изображения (возможно - уменьшенные копии)

По идее отброс тех изображений у которых сильно отличается результат классификации должен снизить количество вычислений. Но по хорошему или экспериментировать нужно, или считать.

p.s. ну и конечно - готовиться параллелить задачу :-)

Answer 2 · 2016-12-17 00:51:45

Для сравнения изображений использую перцептивный хэш, используя привязку к библиотеке libphash0 и расстояние Хэмминга (mysql: bit_count(), postgresql: hamming_distance). Каждый хэш представляет из себя 64-битное число. Вроде как совсем мало занимает.

Ссылки:
https://habrahabr.ru/search/?q=%5Bphash%5D&target_...
https://habrahabr.ru/post/211773/

Выявлять дубликаты можно так:

select s1.name, s2.name from images s1
inner join
(
    select t2.name, t2.phash as dup_phash, hamming_distance((t1.phash), (t2.phash)) as dist from images t1
    inner join images t2 on dist between 1 and 8
    group by dist
    having count(*) > 1
) s2 on dist between 0 and 8

Проиндексировать по images.phash .

Answer 3 · 2016-12-15 14:09:50

взять N серверов и сделать шардирование, главное чтобы на каждом памяти хватало.

тем более насколько я понимаю каждый вектор нужно проверять отдельно (индексы не катят) сложность O(1), то тем более при увеличеннии колич картинок в одной базе начнет расти время только для поиска, не считая загрузку с диска. при шардированиии время не будет расти, так как поиск будет параллельный.

Answer 4 · 2016-12-15 21:44:24

Сергей @begemot_sun

Программист в душе.

https://ru.wikipedia.org/wiki/Locality-sensitive_h... -- может поможет идея.

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2016-12-16 03:36:47

Как вариант - делать копии изображения в небольшом разрешении, и по ним производить сличение. Например, делаем фотки в ширину 50 пикселей, и сравнивать уже их.

Answer 6 · 2016-12-16 10:26:17

Сократите хоть немного пространство признаков и у вас все поместится в память. Дисперсию при этом, я думаю, вы не потеряете почти нисколько.

Answer 7 · 2016-12-16 11:17:34

Поставить сервер с 64-94 ГБ памяти ?? это будет серьезное вложение, но в дальнейшем окупится скоростью и т.д.
Вариант2: взять такой сервер в облаке: стартовых затрат меньше, покрайне мере можно пару месяц погонять и уточниться в своих потребностях и уже думать о локальной железяке.

Answer 8 · 2016-12-15 16:11:42

Артемий @MetaAbstract

Архитектор информационных систем и баз данных. Ful

Наверно Вам поможет распределенное хранение и параллельная обработка данных

Ответ написан более трёх лет назад

Комментировать

Answer 9 · 2017-03-28 10:21:08

Насколько я понимаю, просто прогоняется вся сеть и потом храниться предпоследний слой для каждого изображения. Размер предпоследнего слоя можете задать любого размера в зависимости от необходимой точности.

Как организовать поиск среди миллиона и более изображений?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт