Решение было найдено в использовании PhantomJS, однако загрузка страницы можно достигать 1-2 сек, это довольно долго, с учетом того, что нужно сохранять миллионы страниц.
Никаких хитрых антиботовых механизмов там нет.
У них там банальный расчет, что пользователь-человек не способен читать страницы даже со скоростью 1 страница в секунду.
Подделаться под бота Яндекса не получится - ваш IP должен из подсети Яндекса и резольвится по их DNS.
У Гугля аналогично.
А на остальных ботов они могут выставить банальное ограничение - не более 30 страниц в минуту, например.
А вообще - это не этично.
Вам же в явном виде отказали и закрыли перед носом дверь. А вы - через окно полезли.