twix007
@twix007

Чем и как прогрузить страницы сайта без браузера?

Чем мне в фоне прогрузить каждую страницу сайта с интервалом в 5-8 секунд?
Из списка текстовогои или sitemap.
Около 50 000 страниц.
Автокликер не предлагать... упорото и не стабильно!
Есть серв на linux, если через командную строку решение есть какое..

Если кому нужно тоже, зеркалирование сайта: wget -m https://base-cinema.com/ или из спика wget -i urllist.txt -m https://base-cinema.com/
+
screen
  • Вопрос задан
  • 433 просмотра
Решения вопроса 1
@LiguidCool
Wget жеж ...
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
@MrCheater
Full-Stack JS. В прошлом программист-олимпиадник
phantomjs
Ответ написан
Комментировать
@mik222
Задача варьируется от тривиальной: for loop в bash,
до весьма интересной в которой вы:
  • Создаете и поддерживаете rotating proxy server через tor(20 запущенных tor инстасов за лоад балансером, для смены ip )
  • Поддерживаете параллельную закачку(и соответственно message queue) для уникальных текущих/удаленных/недоступных в данных момент URL
  • Поддерживаете автоматический кравлинг URL на странице, в случае если вы хотите переходить по ссылкам
  • Поддерживаете несколько типов кравлеров(phantomjs/casperjs/standart http request)
  • Поддерживаете спуффинг клиента(чтобы вас не засекли ботоловилки с каптчей)
  • Поддерживаете некоторую эвристику которая должна засекать настоящая ли это страница или honeypot для бота

И это только первые проблемы которые приходят на ум.
------
В случае если вам нужен dirty скачивальщик. То да, wget в for loop оптимальное решение. (Не факт что рабочее)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы