The schema in Elasticsearch is a mapping that describes the the fields in the JSON documents along with their data type, as well as how they should be indexed in the Lucene indexes that lie under the hood.
sort \
--unique \
--parallel <threads count> -T /path/to/temp/dir/ /path/to/huge/file >>/out/file
PC-1 for routing
возвращает адреса машин, на которых лежат хеши и картинки по,
например, первым 4 байтам хеша
PC-1 for hashes
|-/file_with_hash_of_region: content hash of image
|-....
PC-n for hashes
|-/file_with_hash_of_region: content hash of image
|-....
PC-1 for images
|-/image_file_with_hash_as_name
|-....
PC-n for images
|-/image_file_with_hash_as_name
|-....
доступ осуществляется к любым данным в базевсе бд, даже пресловутая монга дает доступ - вопрос в скорости и необходимости индексации
вопрос: в какой конкретно базе хранить?ответ в любой, даже в sqlite
есть ли варианты базы с компрессией?есть leveldb
хочется не особо замороченный вариант с распаралеливанием на несколько компов..тут вообще непонятно о чем речь, то ли о шардинге, то ли о репликации