Создаю проект по ведению читаемых и прочитанных книг. (Да, я знаю, таких сайтов десятки. Оставим это вне обсуждения).
Требуется создать базу огромного количества книг, на разных языках, если не всех книг, то хотя бы самых популярных.
Какая информация нужна: название, автор, обложка книги, категория, число страниц и прочая мета-информация.
Ряд вытекающих подвопросов. Рад ответам на любые из них.
1. Откуда парсить? Ozon, Amazon, что-то еще?
2. Какой метод парсинга избрать? Если имеет значение.
3. Как поддерживать единую категоризацию при парсинге с разных ресурсов.
4. Откуда можно заиметь рейтинги и отзывы на книги? Очень бы тоже пригодилось.
5. И самый главный вопрос. Как поддерживать актуальность базы? Еженедельно выходит сотни новых книг. Как это все подгружать?
Поясните пожалуйста насчет категорий и словаря ассоциаций.
Я могу например в качестве структуры категорий взять один крупный сайт. И его структуру тупо скопировать. Соответственно с этим сайтом и его парсингом вопрос решен.
С другими сайтами. Считал категорию книги. И должен найти ей соответствие в своих категориях. Но так как названия могут отличаться, то мои категории должны иметь несколько альтернативных названий? Так?
Знаете я подумал. Категории же можно более менее вручную сопоставить. Их все-таки поменьше, чем книг.
Есть ещё пиратские сайты, как lib.rus.ec и flibusta, где могут находиться книги, которых не будет на перечисленных выше сайтах. На торрент трекерах есть архивы книг с lib.rus.ec и flibusta. Возможно тоже пригодится, если не контентом, то, хотя бы, идеей катологизации.
P.S. Число страниц довольно абстрактное понятие. Оно зависит от размера материала/экрана на котором отображается книга.