Scala Spark Missing type parameter for List / Почему возникает данная ошибка?

Question

NIKA_R @NIKA_R

Scala Spark Missing type parameter for List / Почему возникает данная ошибка?

spoiler

Код с ошибкой

def read(resource: String): (List[String], DataFrame) = {
    val rdd = spark.sparkContext.textFile(fsPath(resource))

    val headerColumns = rdd.first().split(",").to[List]
    // Compute the schema based on the first line of the CSV file
    val schema = dfSchema(headerColumns)
    val data =
      rdd
        .mapPartitionsWithIndex((i, it) => if (i == 0) it.drop(1) else it) // skip the header line
        .map(_.split(",").to[List])
        .map(row)

    val dataFrame =
      spark.createDataFrame(data, schema)

    (headerColumns, dataFrame)
  }

Сам проект
https://disk.yandex.ru/d/8S5i3CfKj5z0SA

Датасет с описанием https://www.kaggle.com/bls/american-time-use-survey
https://moocs.scala-lang.org/~dockermoocs/bigdata/... (164 Мб)

Цель .
Сколько времени занятые люди тратят на досуг по сравнению с безработными? (см. датасет)

Пошагово:
1. Прочитаем набор данных с помощью Spark;
CSV-файл в Spark-sql
https://spark.apache.org/docs/3.2.0/api/scala/org/...

def row(line: List[String]): Row = {
    Row((line.head :: line.tail.map(_.toDouble)): _*)
  }

2. Преобразуем его в промежуточный набор данных;

def classifiedColumns(columnNames: List[String]): (List[Column], List[Column], List[Column]) = {
    def isPrimary(col: String): Boolean =
        col.startsWith("t01") ||
        col.startsWith("t03") ||
        col.startsWith("t11") ||
        col.startsWith("t1801") ||
        col.startsWith("t1803")

    def isWork(col: String): Boolean =
        col.startsWith("t05") ||
        col.startsWith("t1805")

    def isOther(col: String): Boolean =
        col.startsWith("t02") ||
        col.startsWith("t04") ||
        col.startsWith("t06") ||
        col.startsWith("t07") ||
        col.startsWith("t08") ||
        col.startsWith("t09") ||
        col.startsWith("t10") ||
        col.startsWith("t12") ||
        col.startsWith("t13") ||
        col.startsWith("t14") ||
        col.startsWith("t15") ||
        col.startsWith("t16") ||
        (col.startsWith("t18") && !(col.startsWith("t1801") || col.startsWith("t1803") || col.startsWith("t1805")))

    (columnNames.filter(isPrimary).map(column), columnNames.filter(isWork).map(column), columnNames.filter(isOther).map(column))
  }

3. Посчитать параметры для ответа на вопрос.
Реализуем метод timeUsageSummary, который сопоставит сформированный выше набор данных и общий набор данных. Получим 6 столбцов:

workingStatusProjection рабочий статус,
sexProjection пол,
ageProjection возраст,
workProjection количество ежедневных часов, затрачиваемых на основные виды деятельности,
otherProjection количество ежедневных часов, затрачиваемых на работу, и количество ежедневных часов, затрачиваемых на иное

def timeUsageSummary(
    primaryNeedsColumns: List[Column],
    workColumns: List[Column],
    otherColumns: List[Column],
    df: DataFrame
  ): DataFrame = {
    val workingStatusProjection: Column = when($"telfs" >= 1 && $"telfs" < 3, "working").otherwise("not working").as("working")
    val sexProjection: Column = when($"tesex" === 1, "male").otherwise("female").as("sex")
    val ageProjection: Column = when($"teage" >= 15 && $"teage" <= 22, "young").when($"teage" >= 23 && $"teage" <= 55, "active").otherwise("elder").as("age")
    val primaryNeedsProjection: Column = primaryNeedsColumns.reduce(_ + _).divide(60).as("primaryNeeds")
    val workProjection: Column = workColumns.reduce(_ + _).divide(60).as("work")
    val otherProjection: Column = otherColumns.reduce(_ + _).divide(60).as("other")
    df
      .select(workingStatusProjection, sexProjection, ageProjection, primaryNeedsProjection, workProjection, otherProjection)
      .where($"telfs" <= 4) 
  }

Посчитаем среднее значение по группировке в DataFrame Spark

def timeUsageGrouped(summed: DataFrame): DataFrame = {
    summed.groupBy($"working", $"sex", $"age")
      .agg(
        round(avg("primaryNeeds"),1).as("primaryNeeds"),
        round(avg("work"),1).as("work"),
        round(avg("other"),1).as("other")
      ).orderBy($"working", $"sex", $"age")
  }

Если аккурат убрать всю обработку.... 0_о не хватает памяти?

spoiler

Вопрос задан более трёх лет назад
97 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Учебный центр IBS

JVA-031 Язык Scala для Java-разработчиков

1 неделя

Далее
Открытые школы T1

Разработчик платформы данных (DWH)

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

NIKA_R @NIKA_R Автор вопроса

Можно поспорить. RDD (Resilient Distributed Dataset) - одна из основ Spark.
По сути это надежная распределенная таблица. С RDD удобно работать с кортежами, как в реляционной таблице. Не совсем представляю, как можно использовать RDD для natural language.
Работа Spark выглядит так
1. создаем RDD (например достаем данные из HDFS)
2. производим некие операции map, reduce, join, groupBy, aggregate, reduce и.т.д
3. возвращаем обратно в HDFS.

Сам код на scala рабочий, проблема в hadoop и версии sbt.

Написано более трёх лет назад
mayton2019 @mayton2019

NIKA_R, ты сюда пришел не для того чтобы спорить. Ты пришел с вопросом. Тебе первый экспертный совет. Уходи от RDD. Это тебе только мешает в решении данной задачи. Здесь нет никаких оснований для использования RDD.

Не надо реплицировать рекламную чепуху от спарка образца 2010 года. И спарку не нужен HDFS. Он может работать поверх S3, Azure Blob e.t.c.

Убери проект с яндекса. Залей нормально на github и мы посмотрим.

Как вариант ты взял Scala 3.1.x но это не поддерживается в спарке еще.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Как исправить ошибку компиляции spark?
- 1 подписчик
- 05 янв.
- 68 просмотров
0

ответов
Apache Spark

Средний
Как исправить ошибку при подключении к hivemetatore из spark?
- 1 подписчик
- 04 янв.
- 12 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 24 просмотра
0

ответов
Базы данных

+2 ещё

Сложный
System Design задержка ETL перед записью в базу, (Kafka, Spark) как?
- 1 подписчик
- более двух лет назад
- 98 просмотров
1

ответ
Java

+1 ещё

Средний
Как получить значение из Hive при помощи Apache Spark?
- 1 подписчик
- более двух лет назад
- 89 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться через airflow к hdfs, развернутой в docker?
- 1 подписчик
- более двух лет назад
- 107 просмотров
0

ответов
Apache Spark

Средний
Как я могу подключиться к локально развернутому спарку через airflow?
- 1 подписчик
- более двух лет назад
- 471 просмотр
2

ответа
Apache Spark

Сложный
Ошибка при попытке записать dataframe в базу данных из pyspark?
- 1 подписчик
- более двух лет назад
- 118 просмотров
1

ответ
Python

+2 ещё

Простой
Как запуститьpyspark functions lag?
- 1 подписчик
- более трёх лет назад
- 54 просмотра
1

ответ
Показать ещё Загружается…

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Инженер по ручному тестированию

Hello, Doc!

от 80 000 ₽

Answer 1 · 2022-09-03 22:43:09

Я долго подбирал те слова которые ругательные, но которые цензура все таки пропускает. Вобщем выходило очень по старо-словянски. Вобщем лихо. Сиречь молвить совсем тяжко. Бесовщина... Все неправильно.

Во первых для чтения и обработки CSV файла тебе не нужен RDD. Это очень сырой тип данных который щас никто почти не использует. Его почти всегда заменяют на DataFrame/DataSet. Он остался только в легаси коде и в тех кейсах когда нужно обработать текст (natural language).

Во вторых желательно разделить просто Scala-функции и протестировать их отдельно.

В третьих. Тебе надо поработать со Schema и DataFrames. Тебе дано 9 comma-separated файлов. Получи из них сначала 9 датафреймов. При чтении используй следующий шаблон.

val atusact = spark.read.format("csv")
                .option("header","true")
                .option("inferSchema", "true")
                .option("delimiter", ",")
                .load("/data/atusact.csv")

После того как все датафреймы будут загружены - ты работаешь с данными которые имеют схему. (опция infer).
И из каждого датафрейма можешь получить колонки и типы как коллекции объектов.

Ошибки implicite conversions имеют отношение к языку Scala больше чем к Spark. Если перепишешь все на PySpark то ошибка сама собой уйдет. Я не хотел-бы на ней останавливаться. Отдельным топиком задай по Scala.

P.S. Я вообще игнорировал твоё задание. Мне безразлично что там надо сделать. Я просто смотрел по стилю.

P.P.S Не пиши флуд с картинками. Это не помогает в решении вопроса а только запутывает и раздражает читателя.

Answer 2 · 2022-09-03 23:32:53

попробую прочитать датафрейм как тебе посоветовали выше, а потом после каждой операции вызывай на датафрейме show() чтоб посмотреть промежуточный результат, и так постепенно дойдешь до требуемого результата

Scala Spark Missing type parameter for List / Почему возникает данная ошибка?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт