@denislysenko
data engineer

Как из двух файлов csv сделать один датасет?

есть два файла:
movies.csv и rating.csv

movies.csv выглядит так:
movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
6,Heat (1995),Action|Crime|Thriller
7,Sabrina (1995),Comedy|Romance
...

rating.csv выглядит так:
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
2,6,4.0,964982224
2,47,5.0,964983815
2,50,5.0,964982931
3,70,3.0,964982400
3,101,5.0,964980868
3,110,4.0,964982176
3,333,4.0,1445715029
...

Как сделать один датасет, из этих двух фалов, который будет хранить в себе все поля movies.csv и будет иметь еще одно поле - это СРЕДНИЙ РЕЙТИНГ ФИЛЬМА. То есть, как добавить средний рейтинг к каждому фильму, если в файле rating.csv есть несколько рейтингов к каждому фильму(как получить средний рейтинг к каждому фильму, пользуясь при этом только python)?

data_movies = []
with open('files/movies.csv', encoding='utf-8') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        data_movies.append(row)
        
data_rating = []
with open('files/ratings.csv', encoding='utf-8') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        data_rating.append(row)


сейчас у меня есть две таблицы в виде двумерных массивов: data_movies и data_rating

Сейчас мне нужно сделать итоговую таблицу result_data в которой будут все поля таблицы data_movies и еще одно поле (средний рейтинг фильма).
Как написать условие, которое даст мне средний рейтинг по каждому фильму?
  • Вопрос задан
  • 203 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
23 мая 2024, в 07:43
2800 руб./за проект
23 мая 2024, в 07:18
10000 руб./за проект
23 мая 2024, в 02:40
5000 руб./за проект