Для парсера с поддержкой JavaScript, кукисов какую связку посоветуете?
Требуется написать парсер сложного сайта, с авторизацией, проверкой кукисов, user-agent, капчи. Некоторые вещи генерятся скриптом.
Почитал по интернетам, люди все больше для этого используют nodejs, как я понимаю, в связке с NW.js.
Что еще потребуется?
Какие еще варианты имеются?
ex Software Engineer at Reddit TS/React/GraphQL/Go
для таких вещей как правило пишется 2 приложения:
1) скрипты для phantomJS
2) http-api (запускается локально с фантомом) для принятия разпарсеной инфы в структурированном виде от фантома. Со своей стороны для реализации этой части рекомендую .net (приложение делается за минуты, все удобства linq и т.д.).
* для масштабирования первого модуля можно написать простенький менеджер процессов парсинга, который запускает сколько надо экземпляров на нужных хостах с нужной конфигурацией (на том же .net)
Да можно и на обычном request такое реализовывать спокойно вполне, там и кукисы есть, и заголовки какие угодно.
Смотреть надо, иногда проще разобраться, как генерятся необходимые запросы, если же они генерируются хитрым яваскриптом - всегда можно этот яваскрипт скачать, засунуть в vm и тоже их генерировать.
Ну или как тут написали, headless браузеры.
И таки да, нода идеально подходит для взаимодействий со сторонними сайтами.