Построение bigdata архитектуры на основе kinesis+spark streaming?
Привет, есть задача:
Построить гибкую архитектуру для обработки бигдата в режиме реального времени(stream).
В качестве producer's будут использоваться IOT и мобильные девайсы.
Я выбрал следующий стек kinesis(для потоковой передачи)+кластер с spark streaming для обработки данных.
Я посмотрел конференции по best practice designs and patterns и посмотрел доки на AWS. В принципе все ясно, но есть пару моментов, которые я не уяснил.
1) Кинесис захватывает данные от конечных устройств в потоках и передает их в spark streaming, в spark streaming мы обрабатываем данные и сохраням их в базу(какую лучше базу выбрать(DynamoBD?), пока будут только json, поэтому альтернативы NoSQL решений, которые можно интегрировать с таким стеком я не вижу). Здесь есть альтернатива только как local storage - s3, прочитал, что она больше подходит для файлов, картинок и видео и вообще в принципе для пакетной(batch) обработки.
2) Знаю хорошо только Python, осваивать scala и java времени нет, есть ли возможность сконфигуровать все только посредством python кода?(не считай producers)