Как в dataframe разделить одну колонку на две?

Question

Denis @denislysenko

data engineer

Apache Spark

Как в dataframe разделить одну колонку на две?

пишу в zeppeline notebook

у меня есть такой dataframe:

splited_genres_df.show(20)

+-------+--------------------+---------+
|movieId|               title|   genres|
+-------+--------------------+---------+
|      1|    Toy Story (1995)|Adventure|
|      1|    Toy Story (1995)|Animation|
|      1|    Toy Story (1995)| Children|
|      1|    Toy Story (1995)|   Comedy|
|      1|    Toy Story (1995)|  Fantasy|
|      2|      Jumanji (1995)|Adventure|
|      2|      Jumanji (1995)| Children|
|      2|      Jumanji (1995)|  Fantasy|
|      3|Grumpier Old Men ...|   Comedy|
|      3|Grumpier Old Men ...|  Romance|
|      4|Waiting to Exhale...|   Comedy|
|      4|Waiting to Exhale...|    Drama|
|      4|Waiting to Exhale...|  Romance|
|      5|Father of the Bri...|   Comedy|
|      6|         Heat (1995)|   Action|
|      6|         Heat (1995)|    Crime|
|      6|         Heat (1995)| Thriller|
|      7|      Sabrina (1995)|   Comedy|
|      7|      Sabrina (1995)|  Romance|
|      8| Tom and Huck (1995)|Adventure|
+-------+--------------------+---------+
only showing top 20 rows

в столбце title есть и название фильма и год выпуска этого фильма, а мне нужно этот год добавить в отдельный столбец под названием year а title видоизменить, чтобы он был без года, а только название фильма.

Вопрос задан более трёх лет назад
97 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

Алан Гибизов @phaggi

А как вы пробовали это сделать?

Написано более трёх лет назад
Алан Гибизов @phaggi

И при чём тут все эти теги, вам же уже делали замечания относительно тегов. См.п.3.1. Вам надо распарсить колонку - ставьте тег парсинг. Нет кода на языке - не надо лепить тег языка. Будьте внимательней.

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Алан Гибизов, это pyspark dataframe и pyspark.sql

Написано более трёх лет назад
Алан Гибизов @phaggi

denislysenko, да хоть ассемблер. Кому из 30000 читателей тега python и 22000 читателей тега SQL могут быть интересны и полезны ваши разборки с датафреймом фильмов? Кто из них сможет вам помочь?
Тем более что нет ни строчки кода ни SQL ни python.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Учебный центр IBS

EAS-015 Основы Hadoop

1 неделя

Далее
Сетевая Академия ЛАНИТ

Реализация решений данных в Microsoft Azure

1 неделя

Далее

Решения вопроса 1

2 комментария

Denis @denislysenko Автор вопроса

Здравствуйте, спасибо за ответ, но выдает такую ошибку:

splited_genres_df['year'] = splited_genres_df['title'].str.extract('\((\d+)\)', expand=True)
splited_genres_df['title'] = splited_genres_df['title'].str.extract('(.+)\(\d+\)', expand=True)
splited_genres_df.show(10)

Fail to execute line 3: splited_genres_df['year'] = splited_genres_df['title'].str.extract('\((\d+)\)', expand=True)
Traceback (most recent call last):
  File "/tmp/1639314988872-0/zeppelin_python.py", line 153, in <module>
    exec(code, _zcUserQueryNameSpace)
  File "<stdin>", line 3, in <module>
TypeError: 'Column' object is not callable

может подскажите как исправить?

Написано более трёх лет назад

Denis @denislysenko Автор вопроса

Может это связано с тем, что я не импортировал extract ?

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Как исправить ошибку компиляции spark?
- 1 подписчик
- 05 янв.
- 68 просмотров
0

ответов
Apache Spark

Средний
Как исправить ошибку при подключении к hivemetatore из spark?
- 1 подписчик
- 04 янв.
- 12 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 25 просмотров
0

ответов
Базы данных

+2 ещё

Сложный
System Design задержка ETL перед записью в базу, (Kafka, Spark) как?
- 1 подписчик
- более двух лет назад
- 98 просмотров
1

ответ
Java

+1 ещё

Средний
Как получить значение из Hive при помощи Apache Spark?
- 1 подписчик
- более двух лет назад
- 89 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться через airflow к hdfs, развернутой в docker?
- 1 подписчик
- более двух лет назад
- 107 просмотров
0

ответов
Apache Spark

Средний
Как я могу подключиться к локально развернутому спарку через airflow?
- 1 подписчик
- более двух лет назад
- 471 просмотр
2

ответа
Apache Spark

Сложный
Ошибка при попытке записать dataframe в базу данных из pyspark?
- 1 подписчик
- более двух лет назад
- 118 просмотров
1

ответ
Python

+2 ещё

Простой
Как запуститьpyspark functions lag?
- 1 подписчик
- более трёх лет назад
- 54 просмотра
1

ответ
Scala

+1 ещё

Простой
Scala Spark Missing type parameter for List / Почему возникает данная ошибка?
- 1 подписчик
- более трёх лет назад
- 97 просмотров
2

ответа
Показать ещё Загружается…

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Инженер данных в Плюс Фантех

Яндекс • Москва

от 300 000 до 490 000 ₽

И при чём тут все эти теги, вам же уже делали замечания относительно тегов. См.п.3.1. Вам надо распарсить колонку - ставьте тег парсинг. Нет кода на языке - не надо лепить тег языка. Будьте внимательней.
Алан Гибизов, это pyspark dataframe и pyspark.sql
denislysenko, да хоть ассемблер. Кому из 30000 читателей тега python и 22000 читателей тега SQL могут быть интересны и полезны ваши разборки с датафреймом фильмов? Кто из них сможет вам помочь?
Тем более что нет ни строчки кода ни SQL ни python.

Answer 1 · 2021-12-12 19:00:29

splited_genres_df['year'] = splited_genres_df['title'].str.extract('\((\d+)\)', expand=True)
splited_genres_df['title'] = splited_genres_df['title'].str.extract('(.+)\(\d+\)', expand=True)
splited_genres_df.head()

Как в dataframe разделить одну колонку на две?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт