@Wolframius

Почему парсер не допарсивает ссылки?

Сливаю контент с сайта ленфильм.тв. Дошел до ссылок на файлы, которые ведут в файлообменник, например, вот - idwl.cn/file/428924/_SOFTBOX__Menyayuschii_igru.mk... В коде страницы есть лишь один div с id = download-link. В нем лишь один a с id = dwl. По сути мне надо забрать лишь значение href и все. Но таким образом я получаю ссылку не на файл, а на эту же страницу.

Хочу обратить внимание на то, что код страницы вместе со ссылкой (корректной, проверено) отображается в браузере Via. Вот так:

<div class="arrow" id="download-link">
            <a style="text-decoration: none; color: green;" id="dwl" href="http://p5.idwl.cn/secure/S-O8cm7_esbK0yAva7uUvA/1493530973/4290/428923/_SOFTBOX__Menyayuschii_igru.mkv_320p_320x240.mp4">СКАЧАТЬ
            </a>
</div>


Я декомпилировал этот браузер но вообще не понял что там используется, я то юзаю JSOUP. Кстати, вот код.

String download = downpage.getElementById("download-link").getElementById("dwl").absUrl("href");


Я уже с ума схожу, в чем может быть причина? Кстати, вот какой-то JS скрипт подозрительный (в этом же диве):

<script>
    document.getElementById('dwl').href = obfuscate('.10816.13456.13456.12544.3364.2209.2209.12544.2809.2116.11025.10000.14161.11664.2116.9801.12100.2209.13225.10201.9801.13689.12996.10201.2209.6889.2025.6241.3136.9801.11881.3025.9025.10201.13225.9604.5625.2304.14641.4225.13924.9409.3025.13689.7225.13924.4225.2209.2401.2704.3249.2601.2809.2601.2304.3249.3025.2601.2209.2704.2500.3249.2304.2209.2704.2500.3136.3249.2500.2601.2209.9025.6889.6241.4900.7056.4356.6241.7744.9025.9025.5929.10201.12100.14641.9409.14641.13689.13225.9801.10816.11025.11025.9025.11025.10609.12996.13689.2116.11881.11449.13924.9025.2601.2500.2304.12544.9025.2601.2500.2304.14400.2500.2704.2304.2116.11881.12544.2704');
        </script>


Видимо URL на лету пишется, но как? Что это за цифры? И почему Via показывает код отлично, вместе со ссылкой? Может, стоит изучить как работает Via?
  • Вопрос задан
  • 305 просмотров
Пригласить эксперта
Ответы на вопрос 1
qlkvg
@qlkvg
python backend developer
Там ссылка обфусцирована довольно забавно. Для деобфускации строка разделяется по точкам, берется квадратный корень каждого числа из получившегося массива и преобразуется в соответствующий этому числу unicode-символ. Как-то так - https://jsfiddle.net/ycbxfh9e/. Код для деобфускации примитивный, повторить его на java не составит трудностей. Почему в via browser отдается необфусцированной ссылкой - хз. Может по юзер агенту определяется, кому что показывать. Я попробовал юзер агент от оперы мини - результат тот же. Можно его скопировать от via и попробовать еще раз.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы