Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Question

ruboss @ruboss

Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Всем привет, делаю проект связанный с распознаванием образов, подошел к проблеме очень интересной, думаю не только мне - поиск по огромным данным

В базу идут хэши, пока не знаю точной длины, думаю 32-64 символа utf-8.
С одного изображение будет примерно 5000 хэшей. Поскольку изображений будет очень много (ну реально очень много, как по мне) 720 000 000 (720 миллионов), то придется осуществлять поиск по более чем 1 триллиону записей, которые в свою очередь будут занимать примерно 100ТБ.
Как можно спроектировать структуру, что бы она была расширяема и вообще работала в таких условиях?
По идее поиск по хэшам должен быть за O(1), потащит ли MySQL?
В какую сторону копать? Спасибо!

Вопрос задан более трёх лет назад
5049 просмотров

12 комментариев

Подписаться 25 Оценить 12 комментариев

Сергей Протько @Fesor

а могли бы вы уточнить, в чем смысл? Искать изображение ко хэшам фич? В любом слуае 100Тб это очень много, я бы брал какую-нибудь касандру для этого.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: да, по хешам фич, что-то типа LSH https://en.wikipedia.org/wiki/Locality-sensitive_h...

Написано более трёх лет назад
Сергей Протько @Fesor

ruboss: интересная задача у вас, завидую слегка) Я правильно понимаю что вы таким образом хотите организовать поиск похожих изображений?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: совершенно верно! Если вам интересно, советую ознакомится на досуге - habrahabr.ru/company/yandex/blog/258573

Написано более трёх лет назад
Антон @Largo1

Сергей Протько: да это просто заказ на госзакупках - разработка системы автоматического распознавания по морде лица и не только) включая собак и кошек)

Написано более трёх лет назад
sim3x @sim3x

зачем в данной схеме БД?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: Как предлагаете осюществлять поиск? Используя файловую систему?

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Антон: заказ на распознавание грудей от 3го размера и больше xD

Написано более трёх лет назад
sim3x @sim3x

ruboss: именно

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: интересно. Т.е просто создаются файлы с названием хэша и значениями внутри файла? Как лучше сделать, больше серверов с меньшими обьемами памяти или все на одном сервере?

Написано более трёх лет назад
sim3x @sim3x
ruboss:
$ cat /7d690f663338a870c80d7d81997cd569778cd66b e56bcb767ea690afc5e0c6a382f5948267f8893f

файл с названием хеша какой-то области в себе содержит хеш-как-имя изображения

Как делать? Все зависит от финансов и нагрузок. Можно и на одной, если дисков хватит
Если делать шардирование, то нужно будет выделить пару машин под маршрутизаторы-баллансеры запросов

Не стоит так зацикливаться на бд с самого начала
Написано более трёх лет назад
ruboss @ruboss Автор вопроса

sim3x: спасибо

Написано более трёх лет назад

Решения вопроса 2

2 комментария

5 комментариев

ruboss @ruboss Автор вопроса

elastic search очень даже хорош по отзывам

Написано более трёх лет назад
Макс @MaxDukov

+100500

Написано более трёх лет назад
Юрий Ярош @voidnugget

ruboss: elasticsearch очень-очень плохо масштабируется. Сам возился с кластером с 16ти машин, и как одна из нод падает каждую неделю по 2-3 раза. Лучше сразу брать Solr и реализовывать нужный функционал в рамках приложения.

Написано более трёх лет назад
Леша Киселев @Yakud

Юрий Ярош: По каким причинам подают ноды? У меня было подобное вначале, все решилось пересмотром архитектуры кластера и его настройкой. Сейчас работает ~пол года без простоев. И масштабируется он хорошо.

Написано более трёх лет назад
Юрий Ярош @voidnugget

Леша Киселев: ноды падали по разным причинам: начиная от утечек памяти, и заканчивая проблемами синхронизации - на одной ноде было по 64Гб оперативки и ~2Тб данных. Проблемы со старту решались экстенсивным путём под предлогом "железо дешевле", в итоге пришлось писать кастомные граф-ориентированные индексы и MVP-tree based индексы для PostgreSQL с довольно большой допилкой его полнотекстового движка, хотя под OpenSource'ом это так и не опубликовалось - контора развалилась :)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 11

4 комментария

Сергей Протько @Fesor

для таких объемов и простых задач лучше nosql решения, из ппулярных - касандра. Для таких задачь использование оракла это слишком жирно.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Спасибо за совет! А первая Ваша фраза похожа на: "Кто-то когда-то видел маленьких голубей?" =)

Написано более трёх лет назад
Антон @Largo1

т.е. идентифицировать объект будете по 5000 параметров.. среди подобных.. и причем тут тогда кассандра

Написано более трёх лет назад
sim3x @sim3x

Антон: те кто работает с таким обьемом точно не будут советовать оракл

Написано более трёх лет назад

3 комментария

Комментировать

5 комментариев

xmoonlight @xmoonlight

С первого взгляда внушает доверие, а так - нужно тестировать.

Написано более трёх лет назад
Dimchansky @Dimchansky

xmoonlight: Мы использовали в real time bidding для хранения профилей пользователей сначала Cassandra, но у нас были очень жесткие требования к задержкам и Cassandra нас не устраивала, т.к. ее stop the world GC очень сильно влиял на это. В каждом из 3 DC у нас было по 8 машин со 196 GB оперативки и в итоге мы заменили эти машины на пару аэроспайков. На каждом сервере стоит несколько SSD, с которых аероспайк напрямую в параллельном режиме читает данные. Единственное требование - это чтобы индекс ключей умещался в памяти.

Написано более трёх лет назад
Dimchansky @Dimchansky

Вот тут коротко о нашем опыте: blog.adform.com/technical/married-to-cassandra

Написано более трёх лет назад
xmoonlight @xmoonlight

Dimchansky: т.е. он с SSD копирует индексы в память при поднятии базы и далее "налету" синхронизирует постоянно память и SSD при новых индексах, правильно я понял?

Написано более трёх лет назад
Dimchansky @Dimchansky

xmoonlight: ну эти индексы не индексы с данными, они представляют собой просто указатель откуда с SSD можно прочитать данные для конкретного хеша ключа.

Написано более трёх лет назад

19 комментариев

Сергей Протько @Fesor

кхе-кхе, мускуль? Серьезно?

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: лично я - не проверял, чем чёрт не шуштит..... вдруг он справится?...

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну на такой задаче должен справиться, главное шардирование организовать. Но с тем же успехом можно просто в файловой системе хранить, толку будет явно больше (искать по хэшу пофигу чем).

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну допустим на офф сайте касандры говорится что эплы хранят в ней 10Pb инфы, что мне лично внушает.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Сергей Протько: в файловой системе, реально триллион Inodes сделать?

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: я бы вот еще подрезал бы этот "кустарник" от "избыточности", освободив БД от тучи копий одного и того же...

Написано более трёх лет назад
Сергей Протько @Fesor

ruboss: ну давайте так, на одном mysql сервере вы так же 100Tb данных держать не сможете, а в распределенной файловой системе - запросто.

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну хэши так не минимизировать. Дублирование начальных символов будут идентификаторами шард.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: нет, речь идёт именно про сам контент, который хешируется. (чтобы его не плодить)

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: ну тут сложно, тут поиск по хэшам, так что... Хотя я на месте автора просто уменьшил бы картинки, это дает и аппроксимацию нормальную и вообще... хотя это надо вдаваться в детали задачи.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: еще сильно зависит от кол-ва критериев (контуры, цвета, области и т.д.), можно хэши формировать просто на основе данных и тогда будет как раз то, что ты пишешь. А критерии - слоями можно добавить в конец.

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: это если мы по контурам делаем, а автор выделяет хэши как часть алгоритма. Он указал ссылку на метод выделения фич из изображения в комментариях к вопросу.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: ну вот, собстна, мы и нашли "узкое горло" такого подхода при поиске

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: по контурам еще хуже, года 3 назад пробовал, поиск по хэшам работал лучше.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: хеши контуров или хеши частей алгоритма?

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: хэши контуров, ибо получить контур нормально задачка может быть довольно сложной и это нужно только когда мы классифицируем объекты на картинках, и да, для этого есть другие методы. Помниться хороший вариант был с обучением нейронной сети через bag of words

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: значит я правильно понял. ну да, контур с разной степенью детализации (размер матрицы от крупной к более детальной) внутри одного хеша и единым алгоритмом поворота/наложения (вектор вращения) - это хороший способ получить качественный результат даже с слегка отличающимися хешами. (нашли 0 -> ищем частично: отсекая часть правой части хеша)

Написано более трёх лет назад
Сергей Протько @Fesor

xmoonlight: я просто хочу сказать что хэши контуров это удобно... ну например когда мы распознаем текст, с другой стороны фичи вроде SIFT как раз таки учитывают контуры, так что я не вижу смысла в придумывании каких-то стремных вещей.

Написано более трёх лет назад
xmoonlight @xmoonlight

Сергей Протько: Однозначно!

Написано более трёх лет назад

1 комментарий

Комментировать

4 комментария

Оптимус Пьян @marrk2

Думаю все в тайне догадываются что решение автора по сравнению картинок через 5000 хэшей не оптимально, я даже не вникая в тему могу сходу придумать 2-3 менее затратных варианта....

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Дмитрий: буду благодарен, очень даже интерестно услышать Ваши варианты

Написано более трёх лет назад
Оптимус Пьян @marrk2

ruboss: постройте матрицу по части картинки раз, сократите выборку через цвета два, поработайте с exif три, постройте геометрию соотношений до самых тёмных и светлых частей четыре

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

Дмитрий: какую матрицу? цвета вообще не важны в этой задаче. зачем так усложнять все? Есть дескрипторы инвариантные к изменению размеров, поворота и т.д. Все что Вы написали, относится скорей к глобальным признакам и поиск по ним будет не возможен при малейшем изменении изображения - т.е добавление текста, обрезка и т.д. Думаю, локальные признаки самое оно. Если решение не оптимально, то зачем тогда в Яндексе его используют?

Написано более трёх лет назад

2 комментария

ruboss @ruboss Автор вопроса

Что Вы имеете ввиду, можно немного подробнее?

Написано более трёх лет назад
Алексей Акулович @AterCattus

ruboss: Да все просто: строится обратный индекс "хеш" -> "список изображений, его содержащий". Шардирование по изображениям (чтобы все хеши одной картинки попадали в один шард). Приходит пачка хешей искомого изображения - мы проходимся по этим линиям индекса. При предварительной сортировке линий (отлично работает вставкой при добавлении нового элемента) получение ТОПа выполняется в один проход по этим линиям.
У меня как раз есть похожая задача (не картинки, речь про индекс), но там только 300 миллионов объектов, и с каждого порядка 10 тысяч 32битных хешей. Работает хорошо.

Написано более трёх лет назад

4 комментария

ruboss @ruboss Автор вопроса

С хешем, не то написал. 32 бита* т.е строка вида (1001010101...) UTF-8 2 байта занимает по идее, как он может занимать 6, это разновидности ? тогда 32 бита я могу сложить в 2 символа ютф. Здесь Вы правы, скорей это будет не ютф (китайские иероглифы в базе мне не нужны =) ), а ASCII - 4 символа. Спасибо за советы

Написано более трёх лет назад
pansa @pansa

ruboss: Вам не хватит хэша длинной 32 бита для вашего количества элементов.

Написано более трёх лет назад
ruboss @ruboss Автор вопроса

pansa: По началу хватит, а затем сделаю 64 бита.

Написано более трёх лет назад
Alexandre @Alexandre

для картинок - хеши должны храниться как битовые. В этом случае их длинна будет меньше раза в три-четыре.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Средний
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 19 минут назад
- 6 просмотров
0

ответов
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 1 подписчик
- 3 часа назад
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 132 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 132 просмотра
1

ответ
MySQL

Простой
Какой установщик MySQL использовать?
- 1 подписчик
- 12 авг.
- 194 просмотра
4

ответа
MySQL

Простой
Как свзять столбцы по внешнему ключу?
- 1 подписчик
- 06 авг.
- 108 просмотров
1

ответ
MySQL

Простой
Как подсчитать количество строк в sql запросе?
- 1 подписчик
- 05 авг.
- 223 просмотра
1

ответ
PHP

+1 ещё

Простой
Как в выборке sql обратиться к предыдущей записи?
- 2 подписчика
- 30 июл.
- 301 просмотр
6

ответов
PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 27 июл.
- 260 просмотров
1

ответ
JavaScript

+3 ещё

Простой
Почему при отправке HTML-формы данные не поступают в mysql?
- 1 подписчик
- 25 июл.
- 292 просмотра
1

ответ
Показать ещё Загружается…

Nest.js разработчик

Qtim

от 100 000 до 180 000 ₽

DBA в команду базовой инфраструктуры

SMALL

от 2 000 до 4 500 $

PHP-разработчик

Wanted

До 300 000 ₽

а могли бы вы уточнить, в чем смысл? Искать изображение ко хэшам фич? В любом слуае 100Тб это очень много, я бы брал какую-нибудь касандру для этого.
Сергей Протько: да, по хешам фич, что-то типа LSH https://en.wikipedia.org/wiki/Locality-sensitive_h...
ruboss: интересная задача у вас, завидую слегка) Я правильно понимаю что вы таким образом хотите организовать поиск похожих изображений?
Сергей Протько: совершенно верно! Если вам интересно, советую ознакомится на досуге - habrahabr.ru/company/yandex/blog/258573
Сергей Протько: да это просто заказ на госзакупках - разработка системы автоматического распознавания по морде лица и не только) включая собак и кошек)
sim3x: Как предлагаете осюществлять поиск? Используя файловую систему?
Антон: заказ на распознавание грудей от 3го размера и больше xD
sim3x: интересно. Т.е просто создаются файлы с названием хэша и значениями внутри файла? Как лучше сделать, больше серверов с меньшими обьемами памяти или все на одном сервере?
ruboss:
$ cat /7d690f663338a870c80d7d81997cd569778cd66b e56bcb767ea690afc5e0c6a382f5948267f8893f

файл с названием хеша какой-то области в себе содержит хеш-как-имя изображения

Как делать? Все зависит от финансов и нагрузок. Можно и на одной, если дисков хватит
Если делать шардирование, то нужно будет выделить пару машин под маршрутизаторы-баллансеры запросов

Не стоит так зацикливаться на бд с самого начала

Answer 1 · 2015-09-19 19:46:46

Сергей Протько @Fesor

Full-stack developer (Symfony, Angular)

cassandra.apache.org

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2015-09-19 20:20:27

Пума Тайланд @opium

Просто люблю качественно работать

Не потащит
Нужны эластиксерчи или касандры или МАП редьюс решения.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2015-09-19 19:26:44

Антон @Largo1

Айтишник далёкого плана

хм, странно всё это.. обычно кто создаёт подобную базу - уже знает что делать.. работайте с Oracle

Ответ написан более трёх лет назад

4 комментария

Answer 4 · 2015-09-19 19:31:34

Макс @MaxDukov

впишусь в проект как SRE/DevOps.

столько не потянет и оракл. смотрите на хадуп

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2015-09-20 10:26:47

ФС тоже БД

PC-1 for routing
возвращает адреса машин, на которых лежат хеши и картинки по, 
например, первым 4 байтам хеша

PC-1 for hashes
|-/file_with_hash_of_region: content hash of image
|-....

PC-n for hashes
|-/file_with_hash_of_region: content hash of image
|-....

PC-1 for images
|-/image_file_with_hash_as_name
|-....

PC-n for images
|-/image_file_with_hash_as_name
|-....

Answer 6 · 2015-09-24 12:19:03

Dimchansky @Dimchansky

Вряд ли что-то будет быстрее кластера из Aerospike с SSD дисками

Ответ написан более трёх лет назад

5 комментариев

Answer 7 · 2015-09-19 19:36:01

Каждый hash делайте первичным ключом и затем смотрите тут:
https://dev.mysql.com/doc/refman/5.5/en/innodb-ind...

UPD: я бы добавил, что для обучения и эталонирования образа (на основе множества подобных из БД), нужно удалять из дальнейшей выборки (однократным проходом по всей базе) промежуточные "близкие" "похожие" экземпляры, оставляя определённый процент допуска по параметрам. Таким образом, она не будет расти от "копий" подобных экземпляров.

Answer 8 · 2015-09-19 23:12:26

Попробуйте ArangoDB
API очень простое и скорострельность на высоте. Но это в том случае если с NoSQL хотите решением попробовать

Answer 9 · 2015-09-24 14:28:51

Александр Черных @sashkets

Прекратил отвечать после 24.02.2022

вот еще свежая новость www.nixp.ru/news/13589.html

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2015-09-24 17:12:32

Юрий Ярош @voidnugget

Программист-прагматик

Я бы даже лучше уехал в сторону scylladb - более толковая штука чем Cassandra / Hbase.

Ответ написан более трёх лет назад

Комментировать

Answer 11 · 2015-09-24 18:38:24

Столько ответов, притом, что никто даже не уточнил, что автор подразумевает под поиском по хэшам.
Просто по одному хэшу возвращать айдишник фотки?

Answer 12 · 2015-09-24 20:43:41

Если нужно получать идентификаторы картинок, чьи хеши встречаются наиболее часто в запрошенной выборке, то тут нужно строить не просто key-value, а более оптимальные индексы...

Answer 13 · 2015-09-25 00:09:13

Лично меня еще смутили такме моменты:
1) а что это за хэши такие странные - в символах UTF8? Вкурсе, что _1 символ_ в этой кодировке может занять от 1 до 6 байт, что на таком кол-ве записей ведет к огромному разбросу. Если у вас хэш из ASCII, то тогда зачем притянули сюда UTF8?
2) 32-64 символа -- так 32 или 64? На вашем кол-ве это разница +- 50Тб . Это довольно серьезные объемы.
3) Как вы посчитали 100Тб? Вы учли место под индекс?

Идеи по проблеме:
1) тащить сюда реляционку не стоит, ибо...
2) очевидно, что это всё надо запускать не на одной машине, на глаз - минимум 2, не считая бэкапа (он нужен?) либо реплик => шардинг => kv-хранилища подойдут лучше (если мы правильно поняли, что вы хотите)
3) ничего не сказано про кол-во запросов - вставки/чтения. Но я бы подумал над размещением перед этим хранилищем предварительной проверке по фильтру Блума, чтобы лишний раз не стукаться в хранилище. Но это надо знать характер данных и запросов.

Как следует организовать базу и поиск по 1 000 000 000 000 (триллиону) записей на 100ТБ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт