Написала небольшой парсер на Javascript под Phantomjs. Работает именно так, как нужно, но есть небольшая проблема. Случайным образом на некоторых страницах появляется HTML-код, который при загрузке страницы запускает JS-код и на этом JS-коде Phantomjs начинает грузить проц на 100% и выполняется очень медленно. При этом событие onLoad не вызывается.
Я уже перепробовала все, чтобы средствами Phantomjs вырезать неугодный кусок кода из страницы перед зависанием, но ничего не вышло. В связи с этим пришла в голову идея перехватывать все входящие пакеты, при необходимости редактировать их содержимое и передавать дальше в Phfntomjs. Как это можно осуществить? Трафик сжат gzip`ом.
@Fesor JS нужен, отключить не вариант. Ради него все и затевалось) А второй вариант кажется мне бОльшим извращением, чем просто перехват пакетов. С каждой страницы отправляется пять-десять AJAXов, плохо представляю себе, как это с wgetом увязать. Вся соль в том, чтобы избежать просто POST и GET запросов и эмулировать именно живого пользователя.
Не загружать файл не вариант, т.к. теряются нужные функции вместе с ненужными. А отредактировать полученный файл, насколько я поняла, фантом не позволяет. Буду еще гуглить.