RDD - это распределенная коллекция. То есть набор данных, распределенных по кластеру, над которыми можно выполнять распределенные операции.
Например, есть файл, лежащий в распределенной файловой системе, каждая нода хранит свою часть файла.
При чтении создастся один RDD, представляющий содержимое этого файла. При этом каждая нода, на которой он хранился, будет обрабатывать свою часть данных.