@denislysenko
data engineer

1 rdd это один кусочек 128 байт или поток?

1 rdd это один кусочек 128 байт или поток?
То есть, что такое rdd, кроме как resilient distributed dataset?
  • Вопрос задан
  • 65 просмотров
Решения вопроса 1
@Cheypnow
RDD - это распределенная коллекция. То есть набор данных, распределенных по кластеру, над которыми можно выполнять распределенные операции.
Например, есть файл, лежащий в распределенной файловой системе, каждая нода хранит свою часть файла.
При чтении создастся один RDD, представляющий содержимое этого файла. При этом каждая нода, на которой он хранился, будет обрабатывать свою часть данных.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы