Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Question

webfaker @webfaker

Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Чтобы сразу отсечь непродуктивную полемику: никого не пытаюсь сломать, что-то украсть и проч.
Суть проблемы: есть сайт (крупный международный сервис, но назвать не могу), с которого ~раз в сутки надо скачивать отчёты. Аккаунтов много - несколько десятков, API - нет. Приходится "специально-обученному" человеку много раз перелогиниваться, что занимает уйму времени.
В 21 веке хотелось бы процесс автоматизировать: я сам "php-шник", но там ряд сложностей: авторизация многоэтапная, на ajax'e - с кучей влияющих на процесс cookie's на поддоменах + сам контент отчётов тоже подгружается ajax по post-запросу, естественно с same-origin, так что CRON и прочие школьные технологии не помогут.
Представляется некий браузерный парсер... и, конечно, буду искать специалиста, но привык максимально понимать предмет: из того что нагуглил образовалась только каша из слов, которые пришиты тегами к вопросу.
Если кто-то сталкивался с подобными задачами, пожалуйста, поделитесь рецептом: вообще возможно ли такое и какие есть варианты, какие конкретно технологии лучше использовать. Желательно, с учётом решения возможных побочных проблем, таких как капча, возможная блокировка по IP и проч. Повторюсь: аккаунтов несколько десятков)
ПЫСЫ: не сочтите за наглость - первый раз решился обратиться за помощью к Хабра-сообществу, с надеждой))

Вопрос задан более трёх лет назад
667 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- час назад
- 24 просмотра
0

ответов
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- час назад
- 75 просмотров
1

ответ
Python

+1 ещё

Средний
Насколько надёжен шифр от ИИ?
- 1 подписчик
- 9 часов назад
- 178 просмотров
2

ответа
Node.js

+1 ещё

Простой
Можно ли настроить grafana на отображение логов как у меня в терминале?
- 1 подписчик
- вчера
- 70 просмотров
0

ответов
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 136 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 216 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 143 просмотра
0

ответов
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 111 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 558 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 117 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2017-02-12 16:40:59

можно сразу сюда + Scrapy (возможно, что это не тот AJAX,но хз что там у вас)
(есть еще Grab, но хз как у него с JS)

а можно классикой - PhantomJS / Selenium- понять один сайт, потом на сервере размножить

баны ИП - ВНП/Прокси, лучше свои / покупные постоянный

Капча - антикапча сервисы (где ручками), пока еще Гугл разрешает

Серверный JS парсер множества аккаунтов с динамичным контентом: куда копать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт