Задать вопрос
font
@font
В поисках самого лучшего

Какой python библиотекой парсить Html?

Привет!
Есть N количество сайтов с примерно одинаковой информацией, выводятся эти данные в таблице, хочу все это собрать на одном сайте в одной таблице. Ну вы поняли, типа агрегатор новостей, или еще чего там...
Какая библиотека подойдет здесь лучше?
Как быть не забаненым при такой деятельности?
  • Вопрос задан
  • 3423 просмотра
Подписаться 8 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Профессиональная вёрстка на HTML и CSS
    3 месяца
    Далее
  • Stepik
    Основы HTML и CSS
    2 недели
    Далее
  • OTUS
    HTML/CSS
    3 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 4
Ответ написан
Комментировать
@FireGM
Для третьего питона Grub. Я работаю с ней, ну и внутри использую sqlalchemy. Просто шикарно выходит.
Ответ написан
Комментировать
Недавно рекомендовали для парсинга сайтов вот это решение
scrapy.org
Ответ написан
Комментировать
@throughtheether
human after all
Я в подобной ситуации (было около 10 сайтов-источников с разной структурой данных) использовал requests, lxml и XPATH-выражения.
Как быть не забаненым при такой деятельности?
Если использовать синхронные библиотеки (requests), то, на мой взгляд, можно особо не переживать по поводу возможной блокировки, если серверы, хостящий сайты, нормально настроены, и вы не слишком часто обращаетесь к сайтам. На всякий случай можете User-Agent неприметный прописать.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы