Как обойти сайт на python?

Question

Сергей Павлов @Pavlov_dog

Как обойти сайт на python?

Нужно обойти сайт в котором страницы расположены по принципу список категорий -> категория -> целевая страница. Целевая страница в конце парсится силами Grab. Нужно распарсить все страницы, вложенные в категории. Как решить задачу желательно силами python?

Вопрос задан более трёх лет назад
3138 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как обойти uefi при создании собственной операционной системы?
- 1 подписчик
- 2 часа назад
- 107 просмотров
2

ответа
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 7 часов назад
- 40 просмотров
1

ответ
Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 1 подписчик
- вчера
- 111 просмотров
4

ответа
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 206 просмотров
0

ответов
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 258 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 908 просмотров
3

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 222 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 619 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 535 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 299 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-07-07 21:40:00

Парсите URL категорий (используйте, к примеру, xpath), переходите по ним и парсите необходимые ссылки на страницу. Потом переходите на страницу и выбираете данные (RegExp, XPath или что-то еще).

Не знаю, как это делается в Grab, поэтому рассказал вам алгоритм. Натягиваете код на алгоритм и вуаля!

Answer 2 · 2014-07-07 22:34:52

eremeevdev @eremeevdev

scrapy тоже не плохой фреймворк для парсинга сайтов

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2014-07-10 16:35:46

Можно использовать модуль Grab:Spider следующим образом:
1. Создать начальное задание на парсинг страцицы с категориями, которое находит ссылки на страницы категорий.
2. Для каждой найденной ссылки создать задания для категорий, которое ищет ссылки на целевые страницы.
3. Для каждой найденной на предыдущем этапе ссылки создать задания, которые содержат логику парсинга целевых страниц.
Пример можно посмотреть в документации. Также есть статья на хабре.

Как обойти сайт на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт