Как спарсить все изображения с сайта?

Необходимо пройтись по всем страницам сайта (карта xml отсутствует), найти src у изображений с определенным классом и сохранить их в одну папку. Опционально - название картинки тянуть с тега, к примеру h1.
Сильно камнями не забрасывайте, с данной задачей столкнулся впервые, опыта нет.
Вопрос не из разряда "сделайте за меня", буду признателен за любые ссылки/рекомендации.
  • Вопрос задан
  • 6368 просмотров
Пригласить эксперта
Ответы на вопрос 1
@RidgeA
Алгоритм прост
1. Взять первую страницу сайта.
2. Распарсить ее и найти нужную информацию и ссылки на другие страницы этого же сайта, сохранить это все.
3. Отметить текущую страницу как проанализированную.
4. Перейти к п 1. с любой новой ссылкой на страницу сайта (п. 2)

Вот можно от сюда начать искать инфо https://habrahabr.ru/post/301426/
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы