Ответы пользователя по тегу Scala
  • Scala Spark Missing type parameter for List / Почему возникает данная ошибка?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я долго подбирал те слова которые ругательные, но которые цензура все таки пропускает. Вобщем выходило очень по старо-словянски. Вобщем лихо. Сиречь молвить совсем тяжко. Бесовщина... Все неправильно.

    Во первых для чтения и обработки CSV файла тебе не нужен RDD. Это очень сырой тип данных который щас никто почти не использует. Его почти всегда заменяют на DataFrame/DataSet. Он остался только в легаси коде и в тех кейсах когда нужно обработать текст (natural language).

    Во вторых желательно разделить просто Scala-функции и протестировать их отдельно.

    В третьих. Тебе надо поработать со Schema и DataFrames. Тебе дано 9 comma-separated файлов. Получи из них сначала 9 датафреймов. При чтении используй следующий шаблон.
    val atusact = spark.read.format("csv")
                    .option("header","true")
                    .option("inferSchema", "true")
                    .option("delimiter", ",")
                    .load("/data/atusact.csv")


    После того как все датафреймы будут загружены - ты работаешь с данными которые имеют схему. (опция infer).
    И из каждого датафрейма можешь получить колонки и типы как коллекции объектов.

    Ошибки implicite conversions имеют отношение к языку Scala больше чем к Spark. Если перепишешь все на PySpark то ошибка сама собой уйдет. Я не хотел-бы на ней останавливаться. Отдельным топиком задай по Scala.

    P.S. Я вообще игнорировал твоё задание. Мне безразлично что там надо сделать. Я просто смотрел по стилю.

    P.P.S Не пиши флуд с картинками. Это не помогает в решении вопроса а только запутывает и раздражает читателя.
    Ответ написан
    2 комментария