@denislysenko
data engineer

При увеличении датафрейма таблица становиться пустой, как решить эту проблему?

Часто нужно распарсить вложенный json файл при помощи pyspark. И когда это нужно сделать с маленьким файлом, то все работает хорошо, но когда нужно распарсить большой файл, то в процессе увеличения датафрейма, датафрейм просто становиться пустой, но при этом printSchema() все работает, и видно структуру датафрейма, но данные просто куда то исчезают. Как решить эту проблему?
  • Вопрос задан
  • 59 просмотров
Решения вопроса 2
mayton2019
@mayton2019
Bigdata Engineer
А как вы определили что данные исчезают. Попробуйте для большого фрейма посчитать

df.count()
Ответ написан
Комментировать
@denislysenko Автор вопроса
data engineer
Выяснилось, что есть применять функцию expload к столбцу, который заполнен NULL, то исчезает весь датафрейм. Решение - нужно использовать explode_outer

Подробней почитать можно здесь:
https://stackoverflow.com/questions/64377894/diffe...
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы