Как лучше сделать парсер фильмов по ключевым словам с кинопоиска?
Здравствуйте, хотел бы с вами посоветоваться.
Стоит задача: написать приложение на django, где человек вводит фильм в строку поиска и ему показывается информация о нем (название, рейтинг, описнание и т.п).
Как лучше это реализовать?
Я думал сделать что-то подобное:
1) парсить фильмы по ключевым словам. Т.е. человек вводит "Матрица" и парсер ищет только этот фильм
2) сохранять в json
3) сохранять json в бд
4) показывать информацию о фильме
Что вы думаете насчет моего плана?Кроме этого, как на кинопоиске можно реализовать такой поиск по словам?
1) Я где-то находил уже полностью распашенную базу IMDB. Кажется на kaggle.
2) Что ты там где сохраняешь в Json - это абсолютно ненужная информация и текстовому поиску не имеет отношения.
Сохраняй хоть в XML, хоть в тексте. Это никак не решает задачу быстрого поиска по ключевым словам. Поэтому думай о текстовом поиске а не о форматах сериализации.
Константин, в программировании баз данных обычно ставится несколько главных задач.
1) Нормализация (с целью предотрващения аномалий в данных)
2) Индексирование для быстрого поиска. По каждой этой теме - есть целые книги. Читай изучай.
3) Текстовый поиск. Это вообще отдельная тема и по ней есть отдельные книги и исследования. Еще более комплексная.
Программные продукты по ней - Sphinx, Apache Lucene, Elastic Search. Текстовые индексы
в MySQL, Postgres, Oracle.
Невозможно решить твою задачу раз и навсегда в рамках единого ответа в qna.