Как реализовать парсинг с перебором адресов?

Question

pproman @pproman

Парсинг

Как реализовать парсинг с перебором адресов?

Привет,
подскажите как реализовать:
Есть ссылка вида aaa.com/pic-123400000
на полученной странице есть ссылка на автора Serhii

Сохранить в файле всех авторов, перебрав 5 последних цифр ссылки. (от 123400000 до 123500000)

Только начал изучать Pyton, буду благодарен за помощь

Вопрос задан более трёх лет назад
1232 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

4 комментария

pproman @pproman Автор вопроса

да алгоритм понятен, ничего ведь сложного нет совсем, интересует просто сама реализация на Pyton, просто только начал изучать его

Написано более трёх лет назад
Andrey Dugin @adugin

pproman: Судя по всему, Вы перепутали сайт, и Вам нужно на frilansim.ru. А здесь дают ответы на конкретные проблемы.

Написано более трёх лет назад
pproman @pproman Автор вопроса

извините, я новичок здесь,
нужно наверно было свой кривой кусок кода дать.
Уже разобрался, через Grab и xpath, просто ошибки были

Написано более трёх лет назад
Andrey Dugin @adugin

pproman: Верно, кусок кода многое мог бы показать.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 228 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 477 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 377 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 194 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 267 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 208 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 302 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 140 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 232 просмотра
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2015-04-24 11:35:55

1) Пройтись в цикле по всем страницам
2) Скачать каждую страницу
3) Выпарсить оттуда нужные данные
4) Сохранить в файл

Answer 2 · 2015-04-24 11:31:57

pproman @pproman Автор вопроса

на полученной странице есть ссылка на автора Serhii -
a href="/gallery-17656594590p1.html" itemprop="author">Serhii

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2015-04-24 13:40:04

try:
	from urllib.request import Request, urlopen  # Python 3
except:
	from urllib2 import Request, urlopen  # Python 2
import os,re, base64
autors = {}
BROWSER = "Mozilla/5.0 Gecko/20100101 Firefox/36.0"
for i in range(123400000,123500000):
	s="http://aaa.com/pic-%d"%i
	autors[i] = re.findall(r'itemprop=\s?["\']?author["\']?\s?>(.+)<',urlopen(Request(s,None,{"User-Agent":BROWSER})).read())

А вообще регулярные выражения можно тестировать онлайн https://regex101.com/#python
также рекомендую добавить случайные задержки, а то некоторые сайты могут перестать отдавать контент посчитав это ДДОС атакой.

Как реализовать парсинг с перебором адресов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт