@OldJohn

Как вычитать код страницы в Java?

Здравствуйте. Мне нужно сохранить в виде текста более 2000 страниц с одного сайта.
Делаю при помощи нехитрого кода
Document doc = Jsoup.connect(url)
                .userAgent("Chrome/4.0.249.0 Safari/532.5")
                .referrer("http://www.google.com")
                .get();

В консоли вижу такой вывод
<html>
 <head></head>
 <body>
  <script type="text/javascript" src="/aes.js"></script>
  <script>function toNumbers(d){var e=[];d.replace(/(..)/g,function(d){e.push(parseInt(d,16))});return e}function toHex(){for(var d=[],d=1==arguments.length&&arguments[0].constructor==Array?arguments[0]:arguments,e="",f=0;f<d.length;f++)e+=(16>d[f]?"0":"")+d[f].toString(16);return e.toLowerCase()}var a=toNumbers("f655ba9d09a112d4968c63579db590b4"),b=toNumbers("98344c2eee86c3994890592585b49f80"),c=toNumbers("35d494c9c55d6ba8cb9663293117cf00");document.cookie="__test="+toHex(slowAES.decrypt(c,2,a,b))+"; expires=Thu, 31-Dec-37 23:55:55 GMT; path=/"; location.href="http://wepesstats.rf.gd/pes3.php?i=1";</script>
  <noscript>
   This site requires Javascript to work, please enable Javascript in your browser or use a browser with Javascript support
  </noscript>
 </body>
</html>

Подскажите способ как можно это сделать, пусть не из джавы, может в js как то можно?
  • Вопрос задан
  • 874 просмотра
Решения вопроса 1
al_gon
@al_gon
Работает с https://playwright.dev/java/
Только проверил.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
xez
@xez Куратор тега Java
TL Junior Roo
Простой путь - через селениум.
Сложный - курить их защиту от автоматических запросов.
Ответ написан
Комментировать
mayton2019
@mayton2019 Куратор тега Java
Bigdata Engineer
Вот посмотри как тут пишут https://www.geeksforgeeks.org/selenium-with-java-t...
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
21 нояб. 2024, в 19:31
500 руб./за проект
21 нояб. 2024, в 19:28
200000 руб./за проект