Как отфильтровать данные за определенный период в Spark?

Question

nurzhannogerbek @nurzhannogerbek

Как отфильтровать данные за определенный период в Spark?

Здравствуйте, товарищи! Помогите пожалуйста разобраться.

Раньше со Spark не работал. Пытаюсь разобраться с ним на простом примере. Предположим есть большой файл со следующей структурой (см. ниже). В ней хранится дата, мобильный номер и его статус в это время.

| CREATE_DATE         | MOBILE_KEY | STATUS |
|---------------------|------------|--------|
| 2018-11-28 00:00:00 | 8792548575 | IN     |
| 2018-11-29 20:00:00 | 7052548575 | OUT    |
| 2018-11-30 07:30:00 | 7772548575 | IN     |

Как правильно отфильтровать все данные за указанный период для определенных мобильных номеров? К примеру в качестве входящих данных я получаю такие данные:

val dateFrom = "2018-10-01"
val dateTo = "2018-11-05"
val numbers = "7778529636,745128598,7777533575"

val arr = numbers.split(",") // Создать массив из мобильных номеров

spark.read.parquet("fs://path/file.parquet").filter(???)

Вопрос задан более трёх лет назад
189 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

nurzhannogerbek @nurzhannogerbek Автор вопроса

Здравствуйте! Спасибо за информацию.

Насколько следующий код корректен на ваш взгляд? Не совсем уверен в корректности фильтрации по массиву мобильных номеров.

import spark.implicits._

// Изначально приходят такие вот данные в формате "String"
val dateFrom = "2018-10-01"
val dateTo = "2018-11-05"
val numbers = "7778529636,745128598,7777533575"

// Создаю массив из мобильных номеров
val mobileNumbers = numbers.split(",")

var mf = spark.read.parquet("fs://path/file.parquet")
.filter(
	$"START_DATE".between(dataForm + " 00:00:00", dateTo + " 23:59:59") && $"MOBILE_NUMBER".isin(mobileNumbers: _*)
)

mf.show

На счет распараллеливание вычислений, к примеру создаю датафрейм, но что с ним дальше делать не знаю.

val df = spark.sparkContext.parallelize(mobileNumbers).toDF("mobile_numbers")

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 76 просмотров
1

ответ
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 111 просмотров
0

ответов
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 233 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 100 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 87 просмотров
0

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 353 просмотра
3

ответа
Java

Простой
Как эффективно реализовать балансировку очереди запросов на Java?
- 1 подписчик
- 03 сент.
- 192 просмотра
1

ответ
Java

Простой
Как работает ForkJoinPool.ManagedBlocker?
- 1 подписчик
- 25 авг.
- 115 просмотров
0

ответов
Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 2775 просмотров
3

ответа
Java

Простой
Как скомпилировать Swing приложение с AOT?
- 1 подписчик
- 08 авг.
- 132 просмотра
0

ответов
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Инженер по ручному тестированию

Hello, Doc!

от 80 000 ₽

Лид нагрузочного тестирования

ИНГО БАНК • Москва

До 400 000 ₽

Answer 1 · 2018-12-21 10:05:50

можно просто попытаться как вы пишете отфильтровать, для этого в начале получить определенную структуру и тип данных:

источникДанных
  .мап(созданиеСтруктуры)
  .фильтр(текущаяЗапись => СписокТребуемыхНомеров.содержит(текущаяЗапись.телефон) 
    && текущаяЗапись.дата<>требуемыйИнтервал)

так будет работать, но очень долго, медленно и сожрет кучу ресурсов на одной машине - это не то ради чего спарк используют, спарк - это движек для распределенных вычислений. А чтоб запустить распределенные вычисления, нужно в начале создать пару "ключ"->"значение" (где ключ номер телефона, а значение все остальные данные), эти пары распределятся по узлам, где будут параллельно обрабатываться, а потом результат паралельной обработки агрегировать в один общий результат, и для этого не фильтр использовать а reduceByKey с aggregate, для паралельного сбора ключей и значений для этих ключей.

Answer 2 · 2018-12-27 09:10:47

Дату в формате ISO можно сравнивать как строки. Список телефонов оформить как множество.
Будет что-то типа

val arr = numbers.split(",").toSet

spark.read.parquet("fs://path/file.parquet").filter(t => t("CREATE_DATE") < dateTo && t("CREATE_DATE") > dateFrom && arr(t("MOBILE_KEY")))

Точно не знаю как к полям записи в SPARC обращаться, может быть надо будет немного переделать.

Как отфильтровать данные за определенный период в Spark?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт