Избавление от рекурсивного перехода при парсинге сайтов

Question

mrspd @mrspd

Избавление от рекурсивного перехода при парсинге сайтов

Пишу краулер, который будет заходить по определенным сайтам и собирать информацию о страницах. Что-то типа поискогового мини-робота. При натравливании на некоторые сайты возникла проблема: есть допустим ссылка, при переходе не которую, он в урл добавляет определенный гет-параметр. При клике опять на эту же ссылку, параметр меняется. В итоге робот западает на этой ссылке. И ходит по одной и той же странице. С одной стороны логично, разный урл, разные страницы. С другой стороны один и то же контент и в рекурсии таких страниц робот накачает их бесконечное количество, пока не сработает ограничение по длине url'a.

Для примера: mega74.ru/ — если в правом верхнем углу открыть в новой вкладке «вход и регистрация», а потом не открывшейся странице проделать тоже самое, то урл будет бесконечно дополняться.

Такая же проблема часто встречается с пагинатором на битриксе от горе программистов.

Как от этого избавиться или предусмотреть так сказать защиту от дурака и исключать такие страницы в процессе краулинга?

Вопрос задан более трёх лет назад
3400 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 112 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 207 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 190 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 234 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 127 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 215 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 556 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 367 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 203 просмотра
0

ответов
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2012-10-29 21:44:50

А если попробовать фильтровать повторяющиеся переменные в адресе? т.е. на сайте из примера REQUESTED_FROM будет повторяться сколько угодно раз

Answer 2 · 2012-10-29 20:26:34

Как только по URL определить что эта страница уже парсилась — не знаю. Как по контенту определить: можно, например, запоминать в базе хэш от HTML-кода страницы и потом при парсинге новой страницы смотреть, есть ли уже такой хэш в базе.

Answer 3 · 2012-10-29 23:10:46

Подход такой — парсер должен знать структуру конкретного сайта, который он парсит. Когда он берёт ссылку, от точно знает на что она — на категорию, на итем итд. Тип ссылки в общем. При разработке парсера для конкретного сайта — смотреть на ссылки глазами (ведь и так придётся смотреть на каждую). И если там есть параметр который к делу не относится, Вы сразу это поймёте. Нужно убрать его из URL регэкспом. Или заменять на один и тот же.

Избавление от рекурсивного перехода при парсинге сайтов

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт