Какой подход для фильтрации таблиц лучше?

Question

Denis @denislysenko

data engineer

Python

Какой подход для фильтрации таблиц лучше?

Всем привет. Извиняюсь за большой вопрос, но, пожалуйста, дочитайте до конца. Заранее спасибо.

Мое задание заключается в том что у меня есть два файла: movies.csv и rating.csv (первый на 10 000 строк, второй на 100 000 строк)

Файл movies.csv выглядит так:
movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
6,Heat (1995),Action|Crime|Thriller
7,Sabrina (1995),Comedy|Romance
8,Tom and Huck (1995),Adventure|Children
9,Sudden Death (1995),Action
...

Файл rating.csv выглядит так:
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
1,70,3.0,964982400
1,101,5.0,964980868
2,110,4.0,964982176
2,151,5.0,964984041
2,157,5.0,964984100
3,163,5.0,964983650
3,216,5.0,964981208
3,223,3.0,964980985
...

В файле movies.csv содержится информация о разных фильмах, в rating.csv инофрмация о отзывах на эти фильмы.
Мне нужно на чистом питоне ( без pandas и SQL, можно пользоваться только уже встроеными функциями в python) написать консольную утилиту (определить top n наиболее рейтинговых фильмов (по средней оценке) для каждого указанного жанра), результатом будет csv-like датасет с заголовком genre, title, year, rating)

аргументы командной строки:
-N - число наиболее рейтинговых фильмов для каждого жанра. опциональный
-genres - фильтр по жанрам, задаваемый пользователем. может быть множественным. например, Comedy|Adventure или Comedy&Adventure. опциональный
-year_from
-year_to - фильтр на годы выпуска фильмов. опциональный
-regexp - фильтр (регулярное выражение) на название фильма. опциональный

если какие-то аргументы не указаны, то соответствющего фильтра нет.
если вообще ничего не указано, то выводятся все фильмы с сортировкой по жанру и среднему рейтингу (в порядке убывания)

вот то, что я написал, но это медленно работает

import argparse
import csv

parser = argparse.ArgumentParser()
parser.add_argument('-N',
                    type=int,
                    help='the number of the highest rated films for each genre'
                    )
parser.add_argument('-genres',
                    type=str,
                    help='filter by genre'
                    )
parser.add_argument('-year_from',
                    type=int,
                    help='filter by year (FROM YEAR)',
                    default=1800
                    )
parser.add_argument('-year_to',
                    type=int,
                    help='filter by year (TO YEAR)',
                    default=2025
                    )
parser.add_argument('-regexp',
                    type=str,
                    help='filter on the movie name'
                    )
args = parser.parse_args()

data_m = []
with open('files/movies.csv', encoding='utf-8') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        data_m.append(row)
data_movies = data_m[1:]

data_r = []
with open('files/ratings.csv', encoding='utf-8') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        data_r.append(row)
data_rating = data_r[1:]





result = []  # сюда будет добавляться средний рейтинг по фильмам
for row in data_movies:
    film_ID = row[0]
    sum_rating = 0.0
    count = 0.0
    for line in data_rating:
        if film_ID == line[1]:
            sum_rating += float(line[2])
            count += 1
    if count != 0.0:
        result.append(sum_rating / count)
    else:
        result.append(0)

# добавление в таблицу среднего рейтинга и года
for i in range(len(data_movies)):
    data_movies[i].append(result[i])
    data_movies[i].append(data_movies[i][1][-5:-1])

# сейчас к data_movies добавлен средний рейтинг к каждому фильму и год выпуска фильма
# вывожу в консоль эту таблицу
for row in data_movies:
    print(row)

"""
Короче, сейчас у нас есть data_movies таблица, где добавлен средний рейтинг и год к каждому фильму
!!! НО ЭТО ОЧЕНЬ МЕДЛЕННО РАБОТАЕТ
"""

Суть в том что, я сделал таблицу где есть вся информация о фильмах и добавлен средний рейтинг к каждому фильму, но чтобы получить этот средний рейтинг к каждому фильму мне пришлось вложить цикл в цикл (потому что на каждый фильм было сделано разное количество отзывов разными людьми) и там получилось около 1 миллиарда проходов, и это работает очень медленно, чтобы просто вывести эту итоговую таблицу в консоль нужно около 30 секунд.

К этой итоговой таблице я планировал применять фильтры (из аргументов командной строки) и выводить результат в консоль так, как мне показалось довольно удобным иметь готовую таблицу со средним рейтингом и просто применять к этой таблице различные условия основываясь на аргументах командной строки.

НО, ПРОСТО СДЕЛАТЬ УДОБНУЮ ТАБЛИЦУ - ОЧЕНЬ МЕДЛЕННО РАБОТАЕТ

КАКОЙ ПОДХОД ДЛЯ РЕШЕНИЯ ЭТОЙ ЗАДАЧИ ПРИМЕНИЛИ БЫ ВЫ, КАКИМ СПОСОБОМ РЕШИЛИ БЫ ЭТУ ЗАДАЧУ БЕЗ ИСПОЛЬЗОВАНИЯ СТОРОННИХ БИБЛИОТЕК?
Заранее, спасибо

Вопрос задан более трёх лет назад
176 просмотров

3 комментария

Подписаться 1 Средний 3 комментария

Алан Гибизов @phaggi Куратор тега Python

Во-первых, запрещено злоупотреблять КАПСом.
Во-вторых, мне не совсем понятно, для чего каждый раз на запрос вычислять всё это. Кому это нужно? Вычисляйте либо раз в сутки, либо каждый раз после добавления в базу новых фильмов, и храните, и возвращайте по запросу. Кому нужно вычисление какого-то относительного коэффициента для каждого элемента всей базы много раз в минуту?

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Алан Гибизов, это просто задание, которое нужно выполнить

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

denislysenko, см. п.3.6, 5.12

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

12 комментариев

Denis @denislysenko Автор вопроса

Да, в этом, определенно, есть смысл. Я правильно понимаю, что averages это словарь, в котором ключ - это movieId, a значение - это средний рейтинг это фильма?
И есть ли какой-нибудь другой способ сортировки data_movies, просто, этот метод сортировки почему-то не работает? И как можно добавить в таблицу data_movies значения рейтингов?

Написано более трёх лет назад
Vindicar @Vindicar

denislysenko,
1. Да, именно так.
2. У тебя в элементе data_movies числовой ID фильма под каким индексом? Исправь item[1] на item[0].
3. Зачем? Ты можешь запросить данные по рейтингу нужного фильма как я показал в лямбде, через averages[id] или averages.get(id, default_value). Так как элементы списка data_movies у тебя - кортежи, их придётся пересоздавать целиком (кортежи не изменяемы). Муторно и долго.

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Vindicar,
2) в data_movies ID не числовые, это строки

вот как выглядит data_movies:
['1', 'Toy Story (1995)', 'Adventure|Animation|Children|Comedy|Fantasy']
['2', 'Jumanji (1995)', 'Adventure|Children|Fantasy']
['3', 'Grumpier Old Men (1995)', 'Comedy|Romance']
['4', 'Waiting to Exhale (1995)', 'Comedy|Drama|Romance']
['5', 'Father of the Bride Part II (1995)', 'Comedy']
['6', 'Heat (1995)', 'Action|Crime|Thriller']
['7', 'Sabrina (1995)', 'Comedy|Romance']
['8', 'Tom and Huck (1995)', 'Adventure|Children']
...

а так выглядит averages:
{'1': 3.9209302325581397, '3': 3.2596153846153846, '6': 3.946078431372549, '47': 3.9753694581280787, '50': 4.237745098039215, '70': 3.5090909090909093, '101': 3.782608695652174, '110': 4.031645569620253, '151': 3.5454545454545454, '157': 2.8636363636363638,
...}

3) теперь понял, буду сортировать этим способом

Написано более трёх лет назад
Vindicar @Vindicar

denislysenko, это числа. Просто ты их из строк не конвертировал. Впрочем, в твоей задаче это не требуется, так что сработает и так.
И да, тебе еще надо разбить жанры по символу |, иначе фильтр по жанрам замучаешься реализовывать.

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Vindicar, понял, спасибо, очень много стало понятно

Написано более трёх лет назад

Denis @denislysenko Автор вопроса

Vindicar, Здравствуйте, сейчас уже нахожусь на финальной стадии, осталось только написать функцию для итоговой фильтрации таблицы, подскажете в каком направлении двигаться?

import argparse
import csv
from collections import defaultdict
import re

parser = argparse.ArgumentParser()
parser.add_argument('-N',
                    type=int,
                    help='the number of the highest rated films for each genre'
                    )
parser.add_argument('-genres',
                    type=str,
                    help='filter by genre'
                    )
parser.add_argument('-year_from',
                    type=int,
                    help='filter by year (FROM YEAR)',
                    default=1800
                    )
parser.add_argument('-year_to',
                    type=int,
                    help='filter by year (TO YEAR)',
                    default=2025
                    )
parser.add_argument('-regexp',
                    type=str,
                    help='filter on the movie name'
                    )
args = parser.parse_args()


# read movies.csv
def read_movies_file():
    data_m = []
    with open('files/movies.csv', encoding='utf-8') as file:
        reader = csv.reader(file, delimiter=',')
        for row in reader:
            data_m.append(row)
    data_movies = data_m[1:]
    return data_movies
data_movies = read_movies_file()

# read ratings.csv
def read_rating_file():
    data_r = []
    with open('files/ratings.csv', encoding='utf-8') as file:
        reader = csv.reader(file, delimiter=',')
        for row in reader:
            data_r.append(row)
    data_rating = data_r[1:]
    return data_rating
data_rating = read_rating_file()


# get averages, is a dict in which: key=str(movieID), values=middle rating.
# and sort sort list by rating (reverse=True)
def get_averages():
    total = defaultdict(float)
    count = defaultdict(int)
    for line in data_rating:
        total[line[1]] += float(line[2])
        count[line[1]] += 1
    # middle rating
    averages = { id: total[id]/count[id] for id in count }
    # sort list by reverse=True
    data_movies.sort(key=lambda item: averages.get(item[0], 0), reverse=True)
    return averages
averages = get_averages()


# make a list from geners
def make_list_from_geners_in_data_movies():
    for i in range(len(data_movies)):
        geners_list = data_movies[i][2].split('|')
        data_movies[i][2] = geners_list
    return data_movies
data_movies = make_list_from_geners_in_data_movies()

"""
Короче, сейчас есть таблица data_movies, которая отсортирована по рейтингу (Reverse=True)
Далее, я планирую написать функции сортировки для каждого аргумента командной строки
И ппосле, просто применять эти функции для сортировки data_movies и выводить в консоль результат. 
"""



def filter_by_year(year_from, year_to):
    result = []
    pattern = r'\(\d{4}\)'
    for i in range(len(data_movies)):
        string = data_movies[i][1]
        if re.search(pattern, string) is not None:
            year = re.search(pattern, string)
            a = year.group(0)[1:-1]
            int_year = int(a)
            if year_from <= int_year <= year_to:
                result.append(data_movies[i])
    return result
#filter_by_year(1999, 2001)


def filter_by_regexp(name, data):
    result = []
    pattern = name
    for i in range(len(data)):
        string = data[i][1]
        if re.search(pattern, string) is not None:
            result.append(data[i])
    return result


def filter_by_genres(geners, data):
    result = []
    if '|' in geners:
        geners_list = geners.split('|')
    elif '&' in geners:
        geners_list = geners.split('&')
    else:
        geners_list = geners.split()

    for i in range(len(geners_list)):
        gener = geners_list[i]
        for i in range(len(data)):
            if gener in data[i][2]:
                if data[i] not in result:
                    result.append(data[i])
    return  result

def print_result_to_console(data, N, geners):
    path






def main_condition():
    result = []
    result = filter_by_year(args.year_from, args.year_to)

    if args.regexp is not None:
        result = filter_by_regexp(args.regexp, result)

    if args.genres is not None:
        result = filter_by_genres(args.genres, result)
        # !!! сейчас у нас есть отфильтрованная таблица result, но нужно вывести в консоль правильные значения

if __name__ == "__main__":
    read_movies_file()
    read_rating_file()
    get_averages()
    main_condition()
    print(args)

Есть два аргумента командной строки:
-N - число наиболее рейтинговых фильмов для каждого жанра. опциональный
-genres - фильтр по жанрам, задаваемый пользователем например"Comedy". может быть множественным. например, "Comedy|Adventure" или "Comedy&Adventure". опциональный

если какие-то аргументы не указаны, то соответствющего фильтра нет.
если вообще ничего не указано, то выводятся все фильмы с сортировкой по жанру

вывод в консоль должен быть таким:
Если мы пишем в консоли:
program.py -N 3 -genres "Action&Adventure"
То результат в консоли:

gener, title, year, raring
Action,xxx,xxx,xxx
Action,xxx,xxxxxx
Action,xxx,xxxxxx
Adventure,xxx,xxx,xxx
Adventure,xxx,xxx,xxx
Adventure,xxx,xxx,xxx

xxx - какие - то данные

Дело в том, что я не понимаю, каким образом мне написать функцию которая бы фильтровала data_movies изходя из аргументов -N и -genres, и возвращала бы итоговую таблицу result, строки которой это нужные фильмы.

Может подскажите, как написать функцию, которая будет фильтровать таблицу result и выводить их в консоль фильмы в нужном формате?

Написано более трёх лет назад

Vindicar @Vindicar

denislysenko, я бы написал класс для фильтрации, а потом уже функцию для форматирования.

class Filter:
  def __init__(self):
    self.year_to = None
    self.year_from = None
    self.genres = set()
    #ну и так далее
  def check(self, obj) -> bool:
    #делаем цепочку условий отсева вида "условие_актуально and условие_не_выполняется"
    #ну или как там у тебя к году фильма обратиться?
    if self.year_to is not None and obj['year'] > self.year_to: 
      return False
    if self.year_from is not None and obj['year'] < self.year_from:
      return False
    #obj['genres'] должен быть коллекцицей жанров, а не строкой вида жанр1|жанр2
    if self.genres and self.genres.isdisjoint(obj['genres']): 
      return False
    #и так далее, столько условий, сколько надо
    #а если дошли до конца, то фильм подошел
    return True

Использовать класс тоже просто.

flt = Filter()
flt.genres = set(['Drama', 'Romance']) #или вытаскиваешь жанры из аргументов командной строки
flt.year_from = 2010
#бум, список подходящих под критерии фильмов
filtered = list(filter(flt.check, movies))
#если нужно N лучших, то сортируешь по рейтингу
filtered.sort(key = lambda m: ... )
filtered = filtered[0:N]

Осталось вывести в красивом формате.
Вообще, я бы посоветовал поменять алгоритм парсинга и сделать dataclass для фильма, т.е. хранить в списке не кортежи а объекты. Было бы сильно проще жить.

from dataclasses import dataclass
@dataclass
class Movie:
  #__slots__ позволяет сэкономить память, если набор атрибутов объекта известен заранее и неизменен.
  #полезно для маленьких объектов, которые будут существовать в большом количестве
  __slots__ = ('id', 'name', 'year', 'genres', 'rating')
  id: str #int?
  name: str
  year: int
  genres: set
  rating: float
#конструктор датакласс сгенерирует сам

Тогда нужно переписать парсер, чтобы он по каждой строке создавал новый объект Movie, и складывал их в массив. Затем можно будет заполнить рейтинги фильмов (при создании Movie задашь нулевые).
А потом уже заниматься фильтрацией и прочим.

Написано более трёх лет назад

Denis @denislysenko Автор вопроса

Vindicar, Здравствуйте, вы уже помогали мне с этим заданием, я очень благодарен за эту помощь, действительно много стало понятно. Сейчас хочу обратиться за консультацией по этому же заданию, но сейчас его нужно сделать используя подход клиент-сервер.

Суть задания в том, что нужно написать консольную утилиту, которая будет печатать в консоль фильмы отсортированные по нескольким критериям (год, название, рейтинг и тд).

В папке проекта должно быть разбиение на фронтенд и бекэнд. Во фронтенде - оставить парсер и вывод на экран, все остальное в бэкэнд. Работать с таблицами через mySq

То есть, должно быть две папки:
1)одна для клиетского консольного приложения
2)и вторая для серверной части. все для сетапа бд

Что должно быть в этих папках, как они между собой должны взаимодействовать?

Я правильно понимаю, что в клиентской папке должны приниматься аргументы командной строки и передоваться в папку с серверной частью, а в папке с серверной частью должна быть прописано подключение к бд и запросы SQL для фильтрации вывода?

Что должно быть в папке серверной части?

Заранее, спасибо.

Написано более трёх лет назад
Vindicar @Vindicar

denislysenko, минутку. Клиент-сервер подразумевает сетевое соединения, типа сокетов или чего-то более высокоуровневого. И потом, что будет является клиентом, а что сервером? Вы - клиент, а сторонний сервер БД - сервер? Консольная утилита - клиент, и ещё одна - сервер, связанные протоколом собственной разработки?
Уточни задание, потому что я БЕЗ ПОНЯТИЯ что от тебя хотят.

Написано более трёх лет назад
Denis @denislysenko Автор вопроса
Vindicar, Здравствуйте. вот код файла get-movies.py (это клиент)

import mysql.connector from mysql.connector import Error def create_connection(host_name, user_name, user_password, db_name): connection = None try: connection = mysql.connector.connect( host=host_name, user=user_name, passwd=user_password, database=db_name ) print("Connection to MySQL DB successful") except Error as e: print(f"The error '{e}' occurred") return connection connection = create_connection("localhost", "root", "12345678", "movies") def create_database(connection, query): cursor = connection.cursor() try: cursor.execute(query) print("Database created successfully") except Error as e: print(f"The error '{e}' occurred") create_database_query = "CREATE DATABASE movies" create_database(connection, create_database_query) def execute_query(connection, query): cursor = connection.cursor() try: cursor.execute(query) connection.commit() print("Query executed successfully") except Error as e: print(f"The error '{e}' occurred") create_movies_table = """ CREATE TABLE IF NOT EXISTS movies ( id INT AUTO_INCREMENT, title TEXT NOT NULL, genres TEXT NOT NULL, PRIMARY KEY (id) ) ENGINE = InnoDB """ create_rating_table = """ CREATE TABLE IF NOT EXISTS rating ( id INT AUTO_INCREMENT, movie_id INT NOT NULL, rating INT NOT NULL, timestamp INT NOT NULL FOREIGN KEY (movie_id) REFERENCES movies (id), PRIMARY KEY (id) ) ENGINE = InnoDB """ execute_query(connection, create_movies_table) execute_query(connection, create_rating_table)

То есть, здесь есть создание бд movies и создание двух таблиц: movies и rating. (только честно говоря возникает ошибка синтаксиса при создании таблицы rating),

то есть, я подключаюсь к бд, которая есть на моем сервере mysql, но тот кто будет проверять это у него этой бд может и не быть, а все должно работать так : человек скачивает папку этого задания, обращается к файлу get-movies (может указывать аргументы для фильтрации) и должны выдаваться отсортированные фильмы.

у меня должны быть на все скрипты. чтоб можно было запустить их из репозитория и создать базу, таблицы, импортнуть данные

То есть, как реализовать это?
а в серверной части должны храниться sql скрипты, которые будут передоваться исходя из аргументов командной строки.

Извините, я знаю, что сам не могу нормально сформулировать то что мне нужно, но в целом, если поняли о чем идет речь, то можете отписать мне более подробно что нужно сделать
Написано более трёх лет назад
Vindicar @Vindicar

denislysenko, нет, я не понял о чём речь.
Максимум, что я могу поинтересоваться: если нужна переносимость программы на уровне "скопировали папку", почему используешь mysql? Почему не sqlite, который в питоне есть из коробки и хранит БД в одном файле?

Написано более трёх лет назад
Denis @denislysenko Автор вопроса

Vindicar, Сказали использовать Mysql.
Все равно огромное спасибо

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- вчера
- 152 просмотра
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 210 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 64 просмотра
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 186 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 203 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 138 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 238 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 235 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 156 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 164 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Во-первых, запрещено злоупотреблять КАПСом.
Во-вторых, мне не совсем понятно, для чего каждый раз на запрос вычислять всё это. Кому это нужно? Вычисляйте либо раз в сутки, либо каждый раз после добавления в базу новых фильмов, и храните, и возвращайте по запросу. Кому нужно вычисление какого-то относительного коэффициента для каждого элемента всей базы много раз в минуту?
Алан Гибизов, это просто задание, которое нужно выполнить

Answer 1 · 2021-10-05 20:54:39

Потому что ты для каждого фильма проходишь всю таблицу рейтингов да ещё и парсишь числа каждый раз. Ещё бы оно не тормозило.
Не проще ли для каждого фильма хранить сумму рейтингов и их количество, а потом один раз пройти таблицу рейтингов и заполнить эти хранилища?

from collections import defaultdict
total = defaultdict(float)
count = defaultdict(int)
for line in data_rating:
    total[line[1]] += float(line[2])
    count[line[1]] += 1

averages = { id: total[id]/count[id] for id in count } #средние рейтинги
#и сортируем список фильмов по убыванию рейтинга
data_movies.sort(key=lambda item: averages.get(item[1], 0), reverse=True)

Какой подход для фильтрации таблиц лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт