В чем хранить вектора (эмбендинги) для быстрого сравнения?

Question

Александр Иванов @alexivanov77

It

В чем хранить вектора (эмбендинги) для быстрого сравнения?

Собственно вопрос, в чем хранить вектора лиц, созданные facenet'ом состоящие из 512 вершин, для того что бы их можно было быстр сравнивать. Вектор представляет собой массив, изначально пробовали хранить в postgresql, тип поля cube - но скорость поиска не устраивает. Векторов 50к - и по ним сравнение занимает полторы минуты, это очень долго. Потом пробовали хранить вектора в json, скорость увеличилась, поиск стал занимать 12 секунд, но всё равно это очень долго. Много времени занимает именно само преобразование строки в массив, так вот вопрос, в чем хранить вектор, что бы python сразу получал массив. Или может быть какой нибудь другой метод посоветуете.

Вопрос задан более трёх лет назад
916 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Александр Иванов @alexivanov77 Автор вопроса

Использовали faiss для другого проекта, насколько я понимаю он может обрабатывать только вектора из 128 вершин, а у нас 512. Тем более у него свой метод поиска, а нам нужно оставить наш, потому как наш метод созданный на основе facenet, ищет лучше чем faiss

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

Александр Туркин, вы видимо путаете что-то. faiss - это библиотека для построения индексов на векторах произвольных размерностей, как строятся вектора не имеет ровным счётом никакого значения (это к слову о facenet), расстояния между ними нужно как-то измерять, это тоже параметр индекса.

https://github.com/facebookresearch/faiss/blob/323...
Здесь реализованы L2 и InnerProduct, если вам нужна какая-то своя метрика, то вы вполне можете её дописать, это не возбраняется, поскольку лицензия BSD. Но зачем она вам?

Написано более трёх лет назад

3 комментария

Александр Иванов @alexivanov77 Автор вопроса

В дальнейшем будет 500к векторов, не хотелось бы переплачивать за VPS с большим количеством оперативы

Написано более трёх лет назад
Сергей Тихонов @tumbler Куратор тега Python

6 ГБ - большое количество оперативы?
В любом случае поиск упрётся в скорость вычисления расстояния между векторами, а значит платить придётся за CPU/GPU.

Написано более трёх лет назад
Илья Флакин @ILYHA

Александр Туркин, к какому результату в итоге пришли?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 7 часов назад
- 42 просмотра
0

ответов
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 142 просмотра
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 120 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 102 просмотра
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 64 просмотра
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 230 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 145 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 143 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 233 просмотра
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2019-03-12 14:54:13

Вот статья про методы приближенного поиска ближайших соседей:
https://m.habr.com/ru/company/mailru/blog/338360/

Если вкратце, то поиск по HNSW-индексу из 500к векторов будет укладываться в 5 миллисекунд. Библиотеку лучше взять faiss, она поприличнее написана, чем оригинальный nmslib. У обеих есть Python-биндинги.

Answer 2 · 2019-03-12 14:24:58

50k * 512 * 8 * 3 = 600MB

Попробуйте в оперативке хранить, numpy-массивами. Плюс есть структура KD Tree, позволяющая искать ближайших соседей вектора по K-мерному линейному пространству. Ускорит поиск.

В чем хранить вектора (эмбендинги) для быстрого сравнения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт