Ошибка при попытке записать dataframe в базу данных из pyspark?

Question

marselabdullin @marselabdullin

Apache Spark

Ошибка при попытке записать dataframe в базу данных из pyspark?

Я получаю json из HDFS, преобразую его и пытаюсь записать df в базу данных.

Ошибка:

at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:238)
at java.lang.Thread.run(Thread.java:748)

Spark version: 2.3.1 PySpark: 2.3.1

Code:

df.write \
    .jdbc("jdbc:clickhouse://adqm2.gu.local:8123", "esia_dev.bill_agg_test",
          properties={"user": "user", "password": "password"})

Code2

df.write \
    .format("jdbc") \
    .mode("append") \
    .option("driver", "ru.yandex.clickhouse.ClickHouseDriver") \
    .option("url", "jdbc:clickhouse://adqm2.gu.local:8123/esia_dev")\
    .option("driver", "ru.yandex.clickhouse.ClickHouseDriver")\
    .option("dbtable", "esia_dev.bill_agg_test")\
    .option("user", "user") \
    .option("password", "password")\
    .save()

*P.S Я получаю ту же самую ошибку при попытке выгрузить csv

Вопрос задан более двух лет назад
112 просмотров

Комментировать

Подписаться 1 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Как исправить ошибку компиляции spark?
- 1 подписчик
- 05 янв.
- 62 просмотра
0

ответов
Apache Spark

Средний
Как исправить ошибку при подключении к hivemetatore из spark?
- 1 подписчик
- 04 янв.
- 11 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 17 просмотров
0

ответов
Базы данных

+2 ещё

Сложный
System Design задержка ETL перед записью в базу, (Kafka, Spark) как?
- 1 подписчик
- более двух лет назад
- 92 просмотра
1

ответ
Java

+1 ещё

Средний
Как получить значение из Hive при помощи Apache Spark?
- 1 подписчик
- более двух лет назад
- 84 просмотра
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться через airflow к hdfs, развернутой в docker?
- 1 подписчик
- более двух лет назад
- 101 просмотр
0

ответов
Apache Spark

Средний
Как я могу подключиться к локально развернутому спарку через airflow?
- 1 подписчик
- более двух лет назад
- 454 просмотра
2

ответа
Python

+2 ещё

Простой
Как запуститьpyspark functions lag?
- 1 подписчик
- более двух лет назад
- 50 просмотров
1

ответ
Scala

+1 ещё

Простой
Scala Spark Missing type parameter for List / Почему возникает данная ошибка?
- 1 подписчик
- более двух лет назад
- 94 просмотра
2

ответа
Показать ещё Загружается…

Senior DE/Team Lead

Сбер • Санкт-Петербург

До 420 000 ₽

ML-инженер (удаленно)

Wanted • Санкт-Петербург

До 200 000 ₽

Специалист по нагрузочному тестированию

Deco Systems • Москва

от 150 000 до 300 000 ₽

Answer 1 · 2022-12-07 13:04:16

Тут Spark не имеет никаких преимуществ перед обычным приложением. Скорее всего чтение из json не распараллелится. Такой он вредный json.

Попробуй просто выкачать json через hdfs tools и толкнуть его в кликхаус обычным java или python ротложннием. И jdbc лучше не использовать. Если у кликхауса есть другой API то бери его. Будет быстрее чем jdbc.

Ошибка при попытке записать dataframe в базу данных из pyspark?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт