Здравствуйте, товарищи! Помогите пожалуйста разобраться.
Раньше со
Spark не работал. Пытаюсь разобраться с ним на простом примере. Предположим есть большой файл со следующей структурой (см. ниже). В ней хранится дата, мобильный номер и его статус в это время.
| CREATE_DATE | MOBILE_KEY | STATUS |
|---------------------|------------|--------|
| 2018-11-28 00:00:00 | 8792548575 | IN |
| 2018-11-29 20:00:00 | 7052548575 | OUT |
| 2018-11-30 07:30:00 | 7772548575 | IN |
Как правильно отфильтровать все данные за указанный период для определенных мобильных номеров? К примеру в качестве входящих данных я получаю такие данные:
val dateFrom = "2018-10-01"
val dateTo = "2018-11-05"
val numbers = "7778529636,745128598,7777533575"
val arr = numbers.split(",") // Создать массив из мобильных номеров
spark.read.parquet("fs://path/file.parquet").filter(???)