@denislysenko
data engineer

При увеличении датафрейма таблица становиться пустой, как решить эту проблему?

Часто нужно распарсить вложенный json файл при помощи pyspark. И когда это нужно сделать с маленьким файлом, то все работает хорошо, но когда нужно распарсить большой файл, то в процессе увеличения датафрейма, датафрейм просто становиться пустой, но при этом printSchema() все работает, и видно структуру датафрейма, но данные просто куда то исчезают. Как решить эту проблему?
  • Вопрос задан
  • 62 просмотра
Решения вопроса 2
mayton2019
@mayton2019
Bigdata Engineer
А как вы определили что данные исчезают. Попробуйте для большого фрейма посчитать

df.count()
Ответ написан
Комментировать
@denislysenko Автор вопроса
data engineer
Выяснилось, что есть применять функцию expload к столбцу, который заполнен NULL, то исчезает весь датафрейм. Решение - нужно использовать explode_outer

Подробней почитать можно здесь:
https://stackoverflow.com/questions/64377894/diffe...
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
21 нояб. 2024, в 17:47
7000 руб./за проект
21 нояб. 2024, в 17:30
1500 руб./за проект
21 нояб. 2024, в 17:22
7000 руб./за проект