font
@font
В поисках самого лучшего

Какой python библиотекой парсить Html?

Привет!
Есть N количество сайтов с примерно одинаковой информацией, выводятся эти данные в таблице, хочу все это собрать на одном сайте в одной таблице. Ну вы поняли, типа агрегатор новостей, или еще чего там...
Какая библиотека подойдет здесь лучше?
Как быть не забаненым при такой деятельности?
  • Вопрос задан
  • 3421 просмотр
Пригласить эксперта
Ответы на вопрос 4
Ответ написан
Комментировать
@FireGM
Для третьего питона Grub. Я работаю с ней, ну и внутри использую sqlalchemy. Просто шикарно выходит.
Ответ написан
Комментировать
Недавно рекомендовали для парсинга сайтов вот это решение
scrapy.org
Ответ написан
Комментировать
@throughtheether
human after all
Я в подобной ситуации (было около 10 сайтов-источников с разной структурой данных) использовал requests, lxml и XPATH-выражения.
Как быть не забаненым при такой деятельности?
Если использовать синхронные библиотеки (requests), то, на мой взгляд, можно особо не переживать по поводу возможной блокировки, если серверы, хостящий сайты, нормально настроены, и вы не слишком часто обращаетесь к сайтам. На всякий случай можете User-Agent неприметный прописать.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы