Как развернуть колонку набок и в массив (Databricks/Spark)?

Question

mayton2019 @mayton2019

Bigdata Engineer

Как развернуть колонку набок и в массив (Databricks/Spark)?

Добрый день. Используем Databricks на Azure.

Допустим дана табличка наподобие учебной emp.

empno    ename    job    mgr    hiredate    sal    comm    depno
7782    CLARK    MANAGER    7839    1981-06-09    2450    NULL    10
7839    KING    PRESIDENT    NULL    1981-11-17    5000    NULL    10
7934    MILLER    CLERK    7782    1982-01-23    1300    NULL    10
7369    SMITH    CLERK    7902    1980-12-17    800    NULL    20
7566    JONES    MANAGER    7839    1981-04-02    2975    NULL    20
7788    SCOTT    ANALYST    7566    1987-04-19    3000    NULL    20

Мне из нее нужно средствами SQL сделать нечто вроде.

create table DEPTS_COLLECTION(
  id int,
  enames ARRAY<string>
) using parquet;

insert into DEPTS_COLLECTION values(10, ARRAY('CLARK','KING','MILLER'));
insert into DEPTS_COLLECTION values(20, ARRAY('SMITH','JONES','SCOTT'));

Тоесть группируем имена сотрудников по цеху но записываем в массив.

Реальные имена таблиц не могу приводить. NDA. Но суть-таже.

Вопрос задан более трёх лет назад
142 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Нетология

Инженер по тестированию

8 месяцев

Далее
Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 145 просмотров
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 171 просмотр
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 207 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 235 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 324 просмотра
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 100 просмотров
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 203 просмотра
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 216 просмотров
1

ответ
SQL

+1 ещё

Средний
Как правильно написать запрос в SQL с NOT IN, NOT EXISTS или как-то иначе?
- 1 подписчик
- 28 авг.
- 189 просмотров
0

ответов
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 317 просмотров
0

ответов
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 ₽

Golang Developer (Уфа)

TAGES • Уфа

от 50 000 до 143 400 ₽

Answer 1 · 2022-11-07 02:22:29

Сам себе отвечаю.

collect_list() и explode()

- две функции которые делают нужные преобразования.

Но практически - моя постановка изменилась и сейчас сводится к работе с JSON-arrays которые лежат
в ячейках таблицы. Для них collect/explode мне не подошел. А подошли функции transform и cast.
Часть из них доступны начиная со Spark 3.1.1 и Databricks 9.1.x-LTS Runtime. Поэтому надо модернизироваться срочно.

Как развернуть колонку набок и в массив (Databricks/Spark)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт