Как спарсить динамический контент?

Question

qbr-code @qbr-code

Как спарсить динамический контент?

Добрый день!

Пишу на NodeJs веб скраппер для страницы https://zachtronics.bandcamp.com/album/shenzhen-i-...
Из подключенных модулей использую request и cheerio.
Моя задача получить ссылку, которая находится в одном из нескольких тегов скрипт (так выглядит сама ссылка: https://t4.bcbits.com/stream/b60bed46407ad20cf804c...
Проблема:
request вовзращает только html, а мне нужно то, что лежит в теге скрипт, то есть динамический контент. Я так понимаю, что единственным выходом будет использование webdriver, puppeteer, или headless chrome? Но это ресурсоемко, запускать целый браузер, чтобы только добраться до тега скрипт и взять оттуда ссылку. Нет других способов?

Вопрос задан более трёх лет назад
495 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Академия Эдюсон

Node.js-разработчик

8 месяцев

Далее
ProductStar × РБК

Профессия: Frontend-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

qbr-code @qbr-code Автор вопроса

Спасибо, я думал что без скриптов данные приходят, оказалось с ними

Написано более трёх лет назад
qbr-code @qbr-code Автор вопроса

Только одно не совсем понятно, зачем здесь используется JSON.parse? Если написать просто const foo = body.match(/trackinfo:.*(\[.*?\])/)[1];
то тоже можно получить эту ссылку

Написано более трёх лет назад
DanKud @DanKud

body.match(/trackinfo:.*(\[.*?\])/)[1] мы парсим JSON-строку из полученного контента. Соответственно затем с помощью JSON.parse преобразовываем этот JSON в объект и получаем нужную нам ссылку. А как вы получите саму ссылку просто получив JSON-строку? :)

Написано более трёх лет назад
qbr-code @qbr-code Автор вопроса

DanKud, понял)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

Простой
Как сохранить картинку на сервере, переданную пользователем на сервер node js сокетом?
- 1 подписчик
- 01 июл.
- 94 просмотра
2

ответа
JavaScript

+1 ещё

Сложный
Как сделать логику post запроса покупки товара, если 1 товара не хватает — отменить покупку?
- 2 подписчика
- 10 июн.
- 222 просмотра
1

ответ
Node.js

Простой
Как решить данную ошибку?
- 2 подписчика
- 20 мар.
- 309 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как правильно сделать запрос на страницу для получения данных не по апи?
- 1 подписчик
- 12 февр.
- 294 просмотра
2

ответа
Node.js

+2 ещё

Средний
Как правильно поставить Newman + Allure reporter через nvm, чтобы не ловить EACCES и «could not find allure»?
- 1 подписчик
- 23 янв.
- 140 просмотров
0

ответов
Node.js

Простой
Почему на vps с pm2 сбрасывается server.js?
- 1 подписчик
- 16 янв.
- 152 просмотра
1

ответ
Node.js

+1 ещё

Простой
Можно ли получить ссылку на профиль пользователя по id?
- 1 подписчик
- 04 янв.
- 565 просмотров
2

ответа
Node.js

Простой
Почему не работает код?
- 1 подписчик
- 21 дек. 2025
- 174 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек. 2025
- 188 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-06-17 20:34:32

Ничего там динамически не подключается. Весь контент страницы, в том числе нужные вам скрипты, вы получаете сразу же при загрузке. cheerio вам тут не нужен даже, да и не поможет.

Вот пример как можно получить нужное вам значение:

request('https://zachtronics.bandcamp.com/album/shenzhen-i-o-ost', (error, response, body) => {
	const json = JSON.parse(body.match(/trackinfo:.*(\[.*?\])/)[1]);
	const mp3 = json[0]['file']['mp3-128'];
	console.log(mp3);
});

Answer 2 · 2019-06-17 20:10:14

а request точно не вернет весь html файл страницы со скриптами?

если я правильно понимаю, то интересует массив trackinfo: [...] из главной страницы, может выйдет его без cheerio выцепить регулярным выражением из request.get('bandcamp.com/...'), ну и потом просто распарсить как обычную строку через JSON.parse

UPD
ну и кстати получается, ща регулярку доковыряю и тоже напишу свой граббер бандкампа

request('https://zachtronics.bandcamp.com/album/shenzhen-i-o-ost', function (error, response, body) {
  res.send(body.match(/(?<=trackinfo:)(.*)(?=,)/gi))
  // кривая регулярка, выцепляет не всё что надо
});

Как спарсить динамический контент?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт