Как создать базу всех книг на сайте?

Question

Григорий Хримян @Gryphonn

English Coach

Как создать базу всех книг на сайте?

Создаю проект по ведению читаемых и прочитанных книг. (Да, я знаю, таких сайтов десятки. Оставим это вне обсуждения).

Требуется создать базу огромного количества книг, на разных языках, если не всех книг, то хотя бы самых популярных.
Какая информация нужна: название, автор, обложка книги, категория, число страниц и прочая мета-информация.

Ряд вытекающих подвопросов. Рад ответам на любые из них.
1. Откуда парсить? Ozon, Amazon, что-то еще?
2. Какой метод парсинга избрать? Если имеет значение.
3. Как поддерживать единую категоризацию при парсинге с разных ресурсов.
4. Откуда можно заиметь рейтинги и отзывы на книги? Очень бы тоже пригодилось.
5. И самый главный вопрос. Как поддерживать актуальность базы? Еженедельно выходит сотни новых книг. Как это все подгружать?

Вопрос задан более трёх лет назад
1903 просмотра

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Григорий Хримян @Gryphonn Автор вопроса

Спасибо большое, Максим!

Поясните пожалуйста насчет категорий и словаря ассоциаций.

Я могу например в качестве структуры категорий взять один крупный сайт. И его структуру тупо скопировать. Соответственно с этим сайтом и его парсингом вопрос решен.

С другими сайтами. Считал категорию книги. И должен найти ей соответствие в своих категориях. Но так как названия могут отличаться, то мои категории должны иметь несколько альтернативных названий? Так?

Знаете я подумал. Категории же можно более менее вручную сопоставить. Их все-таки поменьше, чем книг.

Написано более трёх лет назад
Григорий Хримян @Gryphonn Автор вопроса

Кстати у ОЗОНа тоже есть архив со всеми товарами сайта. В xml-формате.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 649 просмотров
2

ответа
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 309 просмотров
3

ответа
Книги

Простой
Поможете найти книгу, автора и название?
- 3 подписчика
- 20 апр.
- 442 просмотра
1

ответ
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 397 просмотров
2

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 297 просмотров
3

ответа
Железо

+2 ещё

Простой
Понять работу ЭВМ с помощью простейшего компьютера на ттл?
- 2 подписчика
- 25 мар.
- 670 просмотров
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1106 просмотров
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 426 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 516 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2018-01-09 07:29:53

чтобы и формат и новинки и отзывы —грузите с интернет-магазинов
https://www.labirint.ru/books/
https://book24.ru у них есть партнерка с XML выгрузкой
Ozon отдает по АПИ,
https://eksmo.ru/ (крупнейший издатель и правообладатель)
Яндекс.Маркет (с ним намучиться только придется)

с этих магазинов вычлените общие закономерности в параметрах книг
нужно будет делать под крупных игроков разные парсеры,

для категорий нужно иметь свой словарь, где у каждой категории будут ассоциации
помимо категорий еще возможны проблемы с авторами:

А.Пушкин,
Александр Пушкин
Пушкин, Александр
Пушкин, А.С

тут могут помочь сервисы типа https://dadata.ru/api/#clean

для унификации книг есть ISBN

Answer 2 · 2018-01-15 21:47:33

Bytan7213 @Bytan7213

Отличный конспект лекций профессора МАИ Лукина В.Н
www.studmed.ru/lukin-vn-bazy-dannyh-konspekt-lekci...

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2018-01-09 18:31:59

Есть ещё пиратские сайты, как lib.rus.ec и flibusta, где могут находиться книги, которых не будет на перечисленных выше сайтах. На торрент трекерах есть архивы книг с lib.rus.ec и flibusta. Возможно тоже пригодится, если не контентом, то, хотя бы, идеей катологизации.

P.S. Число страниц довольно абстрактное понятие. Оно зависит от размера материала/экрана на котором отображается книга.

Как создать базу всех книг на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт