• Парсер-бот на python - как оптимизировать?

    @nirvimel
    1) Все дело в искусстве (именно так) написания XPath-выражений. Одно дело просто валидный (для конкретного документа) xpath, а другое дело xpath нечувствительный (до определенных пределов) к изменениям верстки страницы.
    2) Вести логи. Отслеживать все принимаемые от сервера заголовки, коды ответов, временные метки, ну и сами возвращаемые страницы. Далее анализировать собранные логи, пытаться выявить какие-то закономерности. Внимательно рассмотреть (в логах) тот момент, когда сервер еще отдавал нормальные ответы, после чего начал ругаться. Что произошло изменилось в этот момент? Сколько запросов было оправлено пере этим a) в определенную сессию; b) с определенного User-Agent; c) с определенно ip; d) за предшествующую минуту/час/сутки ? Какое-то ровное число? 100/1000/1000000 ? И делать из этого свои выводы относительно формальных критериев для бана на сервере.
    Ответ написан
    1 комментарий