Задать вопрос

nurzhannogerbek @nurzhannogerbek

scala

Как прочитать несколько parquet файлов в Spark?

Здравствуйте, товарищи! Помогите пожалуйста разобраться со Spark.

Есть директория в которой лежат кучу parquet файлов. Название этих файлов имеют единый формат: "DD-MM-YYYY". К примеру: '01-10-2018', '02-10-2018', '03-10-2018' и т.д. В качестве входного параметра ко мне приходит начальная дата (dateFrom) и конечная дата (dateTo). Значение этих переменных динамическое.

Если я использую следующий код, то программа вещается:

val mf = spark.read.parquet("/PATH_TO_THE_FOLDER/*").filter($"DATE".between(dateFrom + " 00:00:00", dateTo + " 23:59:59"))
mf.show()

Я так понял * проверяет все файлы в директории и поэтому программа вещается.

Как мне не прогонять программу по всей директории, а брать лишь конкретные файлы?

Я подумал можно раздробить период на дни и прочитать каждый файл по отдельности. Затем их объединить. К примеру так:

val mf1 = spark.read.parquet("/PATH_TO_THE_FOLDER/01-10-2018");
val mf2 = spark.read.parquet("/PATH_TO_THE_FOLDER/02-10-2018");

val final = mf1.union(mf2).distinct();

Как я уже упоминал переменные dateFrom и dateTo у меня динамичные. Поэтому как лучше всего организовать код по разбивке периода по дням?

Вопрос задан более трёх лет назад
611 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Как исправить ошибку компиляции spark?
- 1 подписчик
- 05 янв.
- 67 просмотров
0

ответов
Apache Spark

Средний
Как исправить ошибку при подключении к hivemetatore из spark?
- 1 подписчик
- 04 янв.
- 12 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 24 просмотра
0

ответов
Базы данных

+2 ещё

Сложный
System Design задержка ETL перед записью в базу, (Kafka, Spark) как?
- 1 подписчик
- более двух лет назад
- 98 просмотров
1

ответ
Java

+1 ещё

Средний
Как получить значение из Hive при помощи Apache Spark?
- 1 подписчик
- более двух лет назад
- 88 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться через airflow к hdfs, развернутой в docker?
- 1 подписчик
- более двух лет назад
- 106 просмотров
0

ответов
Apache Spark

Средний
Как я могу подключиться к локально развернутому спарку через airflow?
- 1 подписчик
- более двух лет назад
- 469 просмотров
2

ответа
Apache Spark

Сложный
Ошибка при попытке записать dataframe в базу данных из pyspark?
- 1 подписчик
- более двух лет назад
- 115 просмотров
1

ответ
Python

+2 ещё

Простой
Как запуститьpyspark functions lag?
- 1 подписчик
- более трёх лет назад
- 54 просмотра
1

ответ
Scala

+1 ещё

Простой
Scala Spark Missing type parameter for List / Почему возникает данная ошибка?
- 1 подписчик
- более трёх лет назад
- 97 просмотров
2

ответа
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Старший системный администратор (Production Infrastructure)

TravelLine • Санкт-Петербург

от 250 000 ₽