@NooooN
Секьюрник, гык. Лавки вебчик за 300.

Как работает умный web-crawler?

Народ, привет! Появилась задача написать на php || python серверный web-crawler который будет бродить по интернету, собирать ссылки, просто все ссылки, что найдет.

Вот стало интересно, как это реализуется, если мы будем тупо скачивать страницы и регулярками вытаскивать ссылки, будет так себе, откровенно говоря, так как сайт может грузить все ссылки через ajax (body страницы). Или есть сайты с бесконечными циклами, которые убивают подобно ПО (при переходе на сайт автоматически генерируется рабочая ссылка, которая ведет на сайт с такой же динамически сгенерированной ссылкой, и так до бесконечности). Может посоветуете готовое решение, или объясните, как лучше это все делать? пасиб))))
  • Вопрос задан
  • 265 просмотров
Решения вопроса 1
@Fixid
Selenium, а дальше пишите свою логику
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы