Как спарсить несколько страниц?

Question

hardwellZero @hardwellZero

Как спарсить несколько страниц?

Здравствуйте.
Скажите пожалуйста, каким образом я могу получить определенные данные с html страницы (зная селектор элемента), но имея при этом 100+ страниц.(аля выдача гугла).

Вопрос задан более трёх лет назад
1944 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

3 комментария

Дмитрий @trec

Угу, или scrapy.

Но для первого раза, я бы все таки советовал начать с основ. Чтобы стало понятно как открываются страницы, как ищется информация на них.

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

С удовольствием пользовался бы Grab, но не знаю как брать данные с НЕСКОЛЬКИХ страниц. Работу с одной понимаю.

Написано более трёх лет назад
lPolar @lPolar

hardwellZero: питон же исключительно гибкий язык.
абстрактный пример, как это можно сделать:
from grab import Grab()
g=Grab()
url_list = [] # тут список ваших урлов
def page_handler(url):
#функция принимает на вход url в виде строки
resp = g.go(url)
data = resp.xpath() #тут xpath-селектор, возможно синтаксис немного не такой
return data
all_data = [page_handler(url) for url in url_list]
print(all_data)
Чем такой подход не устраивает?

Написано более трёх лет назад

2 комментария

10 комментариев

hardwellZero @hardwellZero Автор вопроса

Сделал сейчас вот так:
from mechanize import Browser
from BeautifulSoup import BeautifulSoup

def extract(soup):
table = soup.findAll("span", itemprop="name")
for element in table:
print element.string

mech = Browser()
url = 'урл здесь'

page1 = mech.open(url)
html1 = page1.read()
soup1 = BeautifulSoup(html1)
extract(soup1)
page2 = mech.follow_link(text_regex="Next")
html2 = page2.read()
soup2 = BeautifulSoup(html2)
extract(soup2)

Таким образом получаю две страницы. А как сделать много? Нужно как-то все в цикл вложить..по идеи

Написано более трёх лет назад
Дмитрий @trec

Вытаскивайте все url из страницы гугла, и складывайте в список
url = ['url1', 'url2', 'urlN']

Далее проходите по этому списку и собранные данные уже кладите в БД, или в файл, или еще куда-то.
for i in xrange(len(url)):
page = mech.open(url[i])
html = page.read()
soup = BeautifulSoup(html)
extract(soup)

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Дмитрий: Каким образом я могу вытащить сразу все страницы?
У меня уже почти готовое решение, нельзя как-то модифицировать его для прохода циклом?

Написано более трёх лет назад
Дмитрий @trec

Я не совсем пойму, вы же говорите что имеете уже 100+ страниц(urlов)

Но если эти урлы где-то на странице, так возьмите сначала эту страницу распарсите, и положите все урлы в список, а потом циклом по этому списку пройдите, заходите на каждую страницу и вытаскивайте нужные данные.

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Дмитрий: их нельзя сразу все открыть. Доступная часть только, остальные неизвестные. Но есть кнопка перехода, я пытался от нее идти.

Написано более трёх лет назад
Дмитрий @trec

Кнопка перехода, это та же ссылка (ну или она должна быть связана с ссылкой). Открывайте её программно как обычную страницу, и читайте так же информацию как и все остальные.

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Дмитрий: я код выше предоставил, не могли б Вы посмотреть и поправить меня?

Написано более трёх лет назад
Дмитрий @trec

Мало данных для более детального совета (для того кода что вы дали, я вам показал как циклом урлы подставлять)

Могу только схематически еще раз пояснить, но применять уже вам

1 парсите главную страницу где урлы, собираете их в список
1.1 если на этой странице не все урлы, то задайте цикл и проходите по всем ссылкам и собирайте все урлы

2 запускайте цикл по собраным урлам и заходите на каждую страницу

3 забирайте данные с каждой страницы

То есть в итоге у вас должно быть цикл на 1 пункт, цикл на 1.1 пункт, цикл по 2 пункту, и сбор данных (тут можно и с циклом и без).

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Дмитрий: Ладно, вернемся к первому пункту.
Нужен цикл что-бы обойти все урлы. Сколько их точно я не знаю. Как быть?

Написано более трёх лет назад
Дмитрий @trec

Если вы знаете как отличить следующий урл, то не вижу проблемы.
Открываете первую страницу, смотрите есть ли ссылка на следующую, если есть, то переходим на неё. И с начала, если есть урл на следующую, то переходим на неё. И с начала. Но добавьте условие, если следующей ссылки не найдено, то выходим из цикла.

На примере гугла:
clip2net.com/s/3hDMzgQ

Начинаем отсчет от class="csb gbil" если есть следующий td с начинкой a, то забираем его урл и переходим на него, на этой странице, вы будите уже на страницу больше, следовательно просматривая снова это список от class="csb gbil" вы найдете снова следующую страницу, и так дальше.
Ставите искусственно константу глубины прохода, и скрипт ваш дальше чем надо не зайдет, хотя если брать гугл, то сомневаюсь что он вам даст себя просто так парсить, но пробуйте.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Дублирование логов в python logging?
- 2 подписчика
- 5 часов назад
- 64 просмотра
0

ответов
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- вчера
- 151 просмотр
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 107 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 503 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 103 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 519 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 543 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2015-05-14 09:29:08

lPolar @lPolar

data scientist

ИМХО, urllib/requests/bs4 - прошлый век.
Берите grab, у него отличная русская документация и удобный интерфейс.

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2015-05-13 19:23:21

Roman K @deliro

requests + BeautifulSoup

Ответ написан более трёх лет назад

2 комментария

Answer 3 · 2015-05-13 21:30:32

urllib2 + BeautifulSoup

Алгоритм таков (выдача гугла), такой себе псевдокод:
смотрим страницу выдачи
берем все 10 урлов сайтов
перебираем их все
открывая каждый и беря нужную инфу с помощью BeautifulSoup
смотрим адрес следующей страницы гугла
подставляем её в начало программы

И так продолжаем или до конца всех найденных страниц, или указывайте нужную глубину просмотра.

Answer 4 · 2015-05-15 15:17:15

Роман @skipirich

проходил мимо

Для того чтобы перебрать эту матрешку нужна рекурсия.

Ответ написан более трёх лет назад

Комментировать

Как спарсить несколько страниц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт