Ручная авторизация через вызов браузера в коде с сохранением сессии?
Ни хао, камрады!
Не так давно сел изучать джаву и стало интересно, смогу ли я наваять говнокод, который будет авторизоваться на сайте, парсить листинг с содержимым, удалять старые и создавать новые со спарсенным до этого содержимым.
По принципу рекламных объявлений на бордах, аля старое сносит, чтобы создать новое и повыше, но в моём случае это не борд и не рекламный, вообще ничего общего с коммерцией не имеет, просто привожу пример для понимания.
Каково же было моё разочарование, когда я зашёл по линке и увидел что там прикрутили топорную капчу.
И тут появилась мысль, ведь есть прекрасная библиотека java.awt.Desktop; которая поможет мне вызвать браузер внутри программы. Но я понятия не имею, есть ли способ после авторизации (ручками в браузере) сохранить сессию и отправлять запросы уже посредством кода.
И в принципе забил бы я давно большой и толстый, но меня мучает вопрос, вообще это реально или я недоучка-сказочник-дилетант? Спасибо за внимание, буду рад любой помощи.
ash2ash,
с куками морока потому что они например expire ну и разные похожие проблемы сужающие применимость
и проект который запоминает куки закрывает браузер и открывает чистый и внедряет куки годится только как доказательство что такое возможно а в промышленнных масштабах не взлетает
имеется в виду реальная капча которая для селениума нерешаема им самим
кому надо за капчу покупает ракапчу я так понимаю
что присоединиться к уже отурытому браузеру нельзя так решили разработчики селениума
"догадливых" ((про себя употребил другое слово)) знатоков селениума желающих осуществить сценарий подобный предложенному выше на selenium users google group неиссякаумый поток
Добрый день.
В принципе, в учебных целях можно запустить браузер через selenium в headless режиме. Саму капчу резолвить через 2Captcha и подобные сервисы (интегрируется через API). Т.е. вам нужно будет спарсить страницу испльзуя Selenium. Можно попробовать слать запросы и без Selenium, например, если у них есть внутренний АПИ. Вообще, еще зависит от сайта. Если контент статический, то можно спарсить данные и при помощи jsoup. В общем, надо смотреть что за сайт, так как на некоторых сайтах (серверах) могут быть настроены honeypot и т.д.
Ну и как отметил коллега, у кукис есть срок действия.