Какие есть аналоги hadoop для небольших объемов данных?
Сейчас я продумываю архитектуру ПО где нужно будет получат данные и обработав их хранить.
Данных максимум будет 2-3 ТВ и они будут приходить невиличкимы порциями в течение 3-5 лет.
Сервер будет один и потому просочились сомнения целесообразно ли будет использовать hadoop, пока это выглядит как запускать боинг для доставки пиццы.
Вот и поэтому заинтересовался вопросом которые могут быть аналоги?
Какие есть подходящие варианты для такого объема данных?
И если стоит брать hadoop то какие конфигурации будут подходящими?
Зачем вам софт для распределенных вычислений?
У вас есть много серверов, ни один из которых по одиночке не справляется с объемами нагрузки?
Если это - не ваша ситуация, то Hadoop - решение не вашей проблемы.
Александр Ковальчук: если 1 сервак и данных так мало то не надо все усложнять. Кладите в папки и читайте с диска. Весь этот набор BIGDATA ПО вам еще и поддерживать придется в течение всего времени хранения.
Владимир Сидоров: файлы приходят и сохраняются, нужно их вытащить и передать дальше для обработки, при удачной обработке удалить их а при неудачной пометить как битые, возможно подскажете решение для python?