При увеличении датафрейма таблица становиться пустой, как решить эту проблему?
Часто нужно распарсить вложенный json файл при помощи pyspark. И когда это нужно сделать с маленьким файлом, то все работает хорошо, но когда нужно распарсить большой файл, то в процессе увеличения датафрейма, датафрейм просто становиться пустой, но при этом printSchema() все работает, и видно структуру датафрейма, но данные просто куда то исчезают. Как решить эту проблему?
Выяснилось, что есть применять функцию expload к столбцу, который заполнен NULL, то исчезает весь датафрейм. Решение - нужно использовать explode_outer