@pproman

Как реализовать парсинг с перебором адресов?

Привет,
подскажите как реализовать:
Есть ссылка вида aaa.com/pic-123400000
на полученной странице есть ссылка на автора Serhii

Сохранить в файле всех авторов, перебрав 5 последних цифр ссылки. (от 123400000 до 123500000)

Только начал изучать Pyton, буду благодарен за помощь
  • Вопрос задан
  • 1194 просмотра
Пригласить эксперта
Ответы на вопрос 3
adugin
@adugin
1) Пройтись в цикле по всем страницам
2) Скачать каждую страницу
3) Выпарсить оттуда нужные данные
4) Сохранить в файл
Ответ написан
@pproman Автор вопроса
на полученной странице есть ссылка на автора Serhii -
a href="/gallery-17656594590p1.html" itemprop="author">Serhii
Ответ написан
Комментировать
NeiroNx
@NeiroNx
Программист
try:
	from urllib.request import Request, urlopen  # Python 3
except:
	from urllib2 import Request, urlopen  # Python 2
import os,re, base64
autors = {}
BROWSER = "Mozilla/5.0 Gecko/20100101 Firefox/36.0"
for i in range(123400000,123500000):
	s="http://aaa.com/pic-%d"%i
	autors[i] = re.findall(r'itemprop=\s?["\']?author["\']?\s?>(.+)<',urlopen(Request(s,None,{"User-Agent":BROWSER})).read())

А вообще регулярные выражения можно тестировать онлайн https://regex101.com/#python
также рекомендую добавить случайные задержки, а то некоторые сайты могут перестать отдавать контент посчитав это ДДОС атакой.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы