С хешем, не то написал. 32 бита* т.е строка вида (1001010101...) UTF-8 2 байта занимает по идее, как он может занимать 6, это разновидности ? тогда 32 бита я могу сложить в 2 символа ютф. Здесь Вы правы, скорей это будет не ютф (китайские иероглифы в базе мне не нужны =) ), а ASCII - 4 символа. Спасибо за советы
Дмитрий: какую матрицу? цвета вообще не важны в этой задаче. зачем так усложнять все? Есть дескрипторы инвариантные к изменению размеров, поворота и т.д. Все что Вы написали, относится скорей к глобальным признакам и поиск по ним будет не возможен при малейшем изменении изображения - т.е добавление текста, обрезка и т.д. Думаю, локальные признаки самое оно. Если решение не оптимально, то зачем тогда в Яндексе его используют?
sim3x: интересно. Т.е просто создаются файлы с названием хэша и значениями внутри файла? Как лучше сделать, больше серверов с меньшими обьемами памяти или все на одном сервере?
Порадовало описание с википедии: "Apache Cassandra — распределённая система управления базами данных, относящаяся к классу noSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша." Похоже, это то что нужно!