Можно ли общаться со spark sql shell через jdbc из UI sql-клиента?
В сети противоречивые сведения. Я хочу настроить подключение к сессии Spark, v2.2, из любой IDE, посылать запросы, получать ответ в виде датасета, как с любой реляционной БД.
К Hive можно подключиться легко, но вот есть ли такая функциональность у spark? Пишут, что через thrift server это удается, причем используя стандартные hive2 jdbc, но мне не удалось.
Особенно интересно, влияет ли на это авторизация в kerberos.
Что-то я такого не видел, да и не понятно зачем, нужна бд в памяти?все же спарк это джобы которые считают что-то, стрим или не стрим, это не сильно важно. После все в витрины отгружают и уже там jdbc и все остальное.
alfss, интересует возможность общаться со spark обычным sql, как с hive. Spark позволяет же в консоли отправлять запросы, почему нельзя из IDE? А нужно это как раз при разработке запросов поверху джобов.
Например в SQL Developer есть возможность подключаться к hive с опцией hive.execution.engine=spark
У меня не получалось, но опция есть.. )
Должен быть способ.
Я такой возможности не знаю, это не база, это джобы , можете задать в оф рассылку вопрос. В консоли не запрос, а создание инcтанса и работа с ним режиме отладки (repl)
Из beeline все просто. Интерфейс овис к spark и hive одинаковый, но beeline пишет
Connected to: Hive (version 0.10.0)
или
Connected to: Spark SQL (version .....)
SQL у них почти одинаковый, но есть отличия типа NVL2 и разных хинтов. И конечно же способом выполнения запроса.
Пусть на ноде работают и hive, и spark. И запущен thrift.
Как узнать порт именно thrist for spark и подключиться именно к Spark?
% bin/beeline
Hive version 0.11.0-SNAPSHOT by Apache
beeline> !connect jdbc:hive2://localhost:10000 scott tiger
!connect jdbc:hive2://localhost:10000 scott tiger
Connecting to jdbc:hive2://localhost:10000
Connected to: Hive (version 0.10.0)