@denislysenko
data engineer

Как обработать rdd?

у меня есть rdd, который выглядит так:

my_rdd.take(10)

[['movieId', 'title', 'genres'],
 ['1', 'Toy Story (1995)', 'Adventure|Animation|Children|Comedy|Fantasy'],
 ['2', 'Jumanji (1995)', 'Adventure|Children|Fantasy'],
 ['3', 'Grumpier Old Men (1995)', 'Comedy|Romance'],
 ['4', 'Waiting to Exhale (1995)', 'Comedy|Drama|Romance'],
 ['5', 'Father of the Bride Part II (1995)', 'Comedy'],
 ['6', 'Heat (1995)', 'Action|Crime|Thriller'],
 ['7', 'Sabrina (1995)', 'Comedy|Romance'],
 ['8', 'Tom and Huck (1995)', 'Adventure|Children'],
 ['9', 'Sudden Death (1995)', 'Action']]


и у меня есть переменные, по которым мне нужно отфильтровать этот my_rdd:
arg_genres = 'Action' # фильтр по жанру
year_to = 2012 # фильтр по году 
year_from = 2005 # фильтр по году 
regexp = 'Toy Story' # фильтр по названию фильма


но я не понимаю как мне получить новый rdd в котором будут содержаться фильмы те фильмы которые удовлетворяют переменным для фильтрации, которые я указал выше.
Каким способом можно получить новый rdd с отфильтрованными фильмами?
  • Вопрос задан
  • 69 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы