@vasiliy763
IT engineer

Выполнение парсинга странцы?

Здравствующие!

Пытаюсь выполнить парсинг страницы, мне необходимо забрать:
- название документа
- дата документа
- ссылка на документ
Все это присутствует на странице в HTML коде
но при переходе между страницами меняются данные не только в значении Page, ни и в следующих значениях тоже
FirstDocumentKey.letterId=
FirstDocumentKey.documentId=
FirstDocumentKey.indexKey=
LastDocumentKey.letterId=
LastDocumentKey.documentId=
LastDocumentKey.indexKey=

И ссылка выглядит между 2й и 3й страницей следующим странным образом:

www.example.ru/FirstDocumentKey.letterId=AAAAA/&FirstDocumentKey.documentId=DDDD/
&FirstDocumentKey.indexKey=ffffff5rexr5k6cr/&LastDocumentKey.letterId=AAAAA/
&LastDocumentKey.documentId=DDDDD/&LastDocumentKey.indexKey=fffffhcfk6lc6lct6l/&Page2

www.example.ru/FirstDocumentKey.letterId=RRRRR/&FirstDocumentKey.documentId=HHHH/
&FirstDocumentKey.indexKey=fffffFyct6lcktvl/&LastDocumentKey.letterId=RRRRR/
&LastDocumentKey.documentId=HHHHH/&LastDocumentKey.indexKey=ffffftcvcdky43uxjf/&Page3

И нет возможности пробежаться циклом for с помощью Python.
Как это можно было победить? и забрать нужные данные, мб с помощью силениум

Название организации находится тут organizationName
____________________________________________________
А даты и ссылки на странице находятся тут:

Даты
Даты на 2й стр
......
Даты на 4й стр
  • Вопрос задан
  • 164 просмотра
Пригласить эксперта
Ответы на вопрос 3
Vindicar
@Vindicar
RTFM!
Найти на странице ссылку на следующую страницу и взять эту ссылку целиком, вместо того чтобы пытаться синтезировать её самому.
Ответ написан
Комментировать
U238_miner
@U238_miner
Питон, железки, софт.
Предлагаю любимый
page = re.compile(r"(www.example.ru\/.+)")
link = re.search(page, html.text)
requests.get(link.....
А то, что значения меняется не вижу проблем. У вас при запросе уже будет новое тело страницы с новыми значениями, которые можно спарсить как угодно. Я только не понял вам откуда их брать надо. С адресов страниц или с их кода?
Ответ написан
@vasiliy763 Автор вопроса
IT engineer
66216c66e442a865639052.jpeg
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы