@Cavez

Парсинг скаченных сайтов?

Всем добрый вечер! У нас есть определенное количество сохраненных сайтов, в виде папок со всеми ресурсами: js чанки react, изображения, html файлы и тд. Нужно как-то их сначала открыть и вытащить нужные данные. Если со вторым более-менее понятно, то насчет первого у меня серьезные вопросы.
Как можно вытащить из такого формата данных полезную информацию? Была идея для каждой папки с сайтом запускать через сервер этот сайт, и уже через какой-нибудь JSOUP оттуда доставать что нужно
  • Вопрос задан
  • 136 просмотров
Решения вопроса 1
@dimuska139
Backend developer
Для решения этой задачи вам потребуется запускать go-сервер для каждого сайта. Нужно сделать так, чтобы можно было открыть index.html в браузере и подключить JS-файлы, после чего нужно подключаться к нему с помощью Selenium (чтобы выполнялся JS) и доставать оттуда данные. Скорее всего, пригодится вот эта библиотека. Возможно, кстати, сервить файлы и не потребуется, и можно их как-то сразу в Selenium подсунуть - там надо уже по факту смотреть.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы