• Чем осуществить парсер/граббер защищенного сайта?

    @cultura
    Решение было найдено в использовании PhantomJS, однако загрузка страницы можно достигать 1-2 сек, это довольно долго, с учетом того, что нужно сохранять миллионы страниц.


    Никаких хитрых антиботовых механизмов там нет.

    У них там банальный расчет, что пользователь-человек не способен читать страницы даже со скоростью 1 страница в секунду.

    Подделаться под бота Яндекса не получится - ваш IP должен из подсети Яндекса и резольвится по их DNS.

    У Гугля аналогично.

    А на остальных ботов они могут выставить банальное ограничение - не более 30 страниц в минуту, например.

    А вообще - это не этично.
    Вам же в явном виде отказали и закрыли перед носом дверь. А вы - через окно полезли.
    Ответ написан
    1 комментарий