Задать вопрос
@Jolt

Как организовать дублирование Spark driver?

Имеется Kafka, куда падают события, их необходимо фильтровать и заносить в разные БД.
Сейчас все построено на Apche Spark (PySpark).
В каждом docker контейнере был запущен свой локальный SparkContext, со своим writeStream.foreachBatch.
Но это весьма затратно по памяти, поэтому сейчас перенес все в один контейнер, в котором к одному контексту коннектятся writeStream.

В любом случае, хотелось бы иметь резервирование, чтобы было запущено два контейнера на разных машинах с одной задачей. Как это возможно сделать?
Предполагаю что потребуется отдельный Spark кластер с двумя мастерами и N мастерами.
А как задублировать задачи (spark driver)?
  • Вопрос задан
  • 56 просмотров
Подписаться 1 Сложный Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Яндекс Практикум
    Мидл фронтенд-разработчик
    5 месяцев
    Далее
  • Яндекс Практикум
    Инженер облачных сервисов
    2 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 1
@PromptAttestation
Can i know what are spark driver?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы