@hardwellZero

Как спарсить несколько страниц?

Здравствуйте.
Скажите пожалуйста, каким образом я могу получить определенные данные с html страницы (зная селектор элемента), но имея при этом 100+ страниц.(аля выдача гугла).
  • Вопрос задан
  • 1931 просмотр
Пригласить эксперта
Ответы на вопрос 4
@lPolar
data scientist
ИМХО, urllib/requests/bs4 - прошлый век.
Берите grab, у него отличная русская документация и удобный интерфейс.
Ответ написан
@deliro
requests + BeautifulSoup
Ответ написан
urllib2 + BeautifulSoup

Алгоритм таков (выдача гугла), такой себе псевдокод:
смотрим страницу выдачи
берем все 10 урлов сайтов
перебираем их все
открывая каждый и беря нужную инфу с помощью BeautifulSoup
смотрим адрес следующей страницы гугла
подставляем её в начало программы

И так продолжаем или до конца всех найденных страниц, или указывайте нужную глубину просмотра.
Ответ написан
skipirich
@skipirich
проходил мимо
Для того чтобы перебрать эту матрешку нужна рекурсия.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
SpectrumData Екатеринбург
от 150 000 до 200 000 ₽
Гринатом Москва
от 150 000 ₽
DIGITAL SECTOR Краснодар
от 150 000 до 250 000 ₽
18 июн. 2024, в 23:10
15000 руб./за проект
18 июн. 2024, в 20:15
500 руб./за проект