Tpona
@Tpona
Ужасный перфекционист

Для парсера с поддержкой JavaScript, кукисов какую связку посоветуете?

Требуется написать парсер сложного сайта, с авторизацией, проверкой кукисов, user-agent, капчи. Некоторые вещи генерятся скриптом.
Почитал по интернетам, люди все больше для этого используют nodejs, как я понимаю, в связке с NW.js.
Что еще потребуется?
Какие еще варианты имеются?
  • Вопрос задан
  • 508 просмотров
Пригласить эксперта
Ответы на вопрос 5
@nozzy
Symfony, Laravel, SQL
Python + Selenium, в Selenium использовать web-driver PhantomJS.
Для cookies использую pickle.
Ответ написан
dasha_programmist
@dasha_programmist
ex Software Engineer at Reddit TS/React/GraphQL/Go
для таких вещей как правило пишется 2 приложения:
1) скрипты для phantomJS
2) http-api (запускается локально с фантомом) для принятия разпарсеной инфы в структурированном виде от фантома. Со своей стороны для реализации этой части рекомендую .net (приложение делается за минуты, все удобства linq и т.д.).

* для масштабирования первого модуля можно написать простенький менеджер процессов парсинга, который запускает сколько надо экземпляров на нужных хостах с нужной конфигурацией (на том же .net)
Ответ написан
TheCreator
@TheCreator
Бездельник
Да можно и на обычном request такое реализовывать спокойно вполне, там и кукисы есть, и заголовки какие угодно.
Смотреть надо, иногда проще разобраться, как генерятся необходимые запросы, если же они генерируются хитрым яваскриптом - всегда можно этот яваскрипт скачать, засунуть в vm и тоже их генерировать.

Ну или как тут написали, headless браузеры.

И таки да, нода идеально подходит для взаимодействий со сторонними сайтами.
Ответ написан
Комментировать
@Verz1Lka
Web scraping expert
В scrapy всё это можно запихать
Ответ написан
Комментировать
MvcBox
@MvcBox
Software Developer [C/C++/JS(for Node.js)/etc]
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы