Как лучше сделать парсер фильмов по ключевым словам с кинопоиска?

Question

Константин @robocop45

Only python

Парсинг

Как лучше сделать парсер фильмов по ключевым словам с кинопоиска?

Здравствуйте, хотел бы с вами посоветоваться.

Стоит задача: написать приложение на django, где человек вводит фильм в строку поиска и ему показывается информация о нем (название, рейтинг, описнание и т.п).

Как лучше это реализовать?
Я думал сделать что-то подобное:
1) парсить фильмы по ключевым словам. Т.е. человек вводит "Матрица" и парсер ищет только этот фильм
2) сохранять в json
3) сохранять json в бд
4) показывать информацию о фильме

Что вы думаете насчет моего плана? Кроме этого, как на кинопоиске можно реализовать такой поиск по словам?

Вопрос задан более года назад
197 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

mayton2019 @mayton2019

1) Я где-то находил уже полностью распашенную базу IMDB. Кажется на kaggle.

2) Что ты там где сохраняешь в Json - это абсолютно ненужная информация и текстовому поиску не имеет отношения.
Сохраняй хоть в XML, хоть в тексте. Это никак не решает задачу быстрого поиска по ключевым словам. Поэтому думай о текстовом поиске а не о форматах сериализации.

Написано более года назад
Константин @robocop45 Автор вопроса

mayton2019, как тогда лучше всего сохранять текстовую информацию?

Написано более года назад
mayton2019 @mayton2019

Константин, в программировании баз данных обычно ставится несколько главных задач.

1) Нормализация (с целью предотрващения аномалий в данных)
2) Индексирование для быстрого поиска. По каждой этой теме - есть целые книги. Читай изучай.
3) Текстовый поиск. Это вообще отдельная тема и по ней есть отдельные книги и исследования. Еще более комплексная.
Программные продукты по ней - Sphinx, Apache Lucene, Elastic Search. Текстовые индексы
в MySQL, Postgres, Oracle.

Невозможно решить твою задачу раз и навсегда в рамках единого ответа в qna.

Написано более года назад
Константин @robocop45 Автор вопроса

mayton2019, Спасибо, я решил, что буду парсить данные, сохранять в sqllite, далее уже логика django

Написано более года назад
mayton2019 @mayton2019

Константин, как будет угодно.

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Парсинг

Средний
Как автоматически скачивать файл с сайта регулярно?
- 1 подписчик
- 26 апр.
- 53 просмотра
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 98 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 88 просмотров
1

ответ
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 87 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 28 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 160 просмотров
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 34 просмотра
1

ответ
Парсинг

Средний
Как парсить сайты на Wordpress в определённой доменной зоне?
- 1 подписчик
- 16 апр.
- 27 просмотров
3

ответа
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- 14 апр.
- 124 просмотра
1

ответ
Парсинг

Простой
Есть кто copart.com парсил?
- 1 подписчик
- 14 апр.
- 113 просмотров
0

ответов
Показать ещё Загружается…

Бэкэнд разработчик сайтов

Валверде

от 40 000 до 60 000 ₽

SEO

Uway

от 140 000 до 200 000 ₽

Backend-разработчик C# Middle+

Объектив • Екатеринбург

от 170 000 ₽

Разработать нейросеть

02 мая 2024, в 06:11

30000 руб./за проект

Автоматизация отчетности сектора подбора и развития персонала в 1С

02 мая 2024, в 05:49

7000 руб./за проект

Изменение темы сайта на ghost cms

02 мая 2024, в 04:47

5000 руб./за проект

1) Я где-то находил уже полностью распашенную базу IMDB. Кажется на kaggle.

2) Что ты там где сохраняешь в Json - это абсолютно ненужная информация и текстовому поиску не имеет отношения.
Сохраняй хоть в XML, хоть в тексте. Это никак не решает задачу быстрого поиска по ключевым словам. Поэтому думай о текстовом поиске а не о форматах сериализации.
mayton2019, как тогда лучше всего сохранять текстовую информацию?
Константин, в программировании баз данных обычно ставится несколько главных задач.

1) Нормализация (с целью предотрващения аномалий в данных)
2) Индексирование для быстрого поиска. По каждой этой теме - есть целые книги. Читай изучай.
3) Текстовый поиск. Это вообще отдельная тема и по ней есть отдельные книги и исследования. Еще более комплексная.
Программные продукты по ней - Sphinx, Apache Lucene, Elastic Search. Текстовые индексы
в MySQL, Postgres, Oracle.

Невозможно решить твою задачу раз и навсегда в рамках единого ответа в qna.
mayton2019, Спасибо, я решил, что буду парсить данные, сохранять в sqllite, далее уже логика django

Как лучше сделать парсер фильмов по ключевым словам с кинопоиска?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт