Парсинг сайта (его содержимого) из веб-архива. Как?

Question

mRelby @mRelby

Парсинг сайта (его содержимого) из веб-архива. Как?

Всем доброго времени суток!

Собственно, вопрос непосредственно в заголовке. Как сегодня лучше всего вытянуть содержимое (или сам сайт) из веб-архива?
Быть может есть у кого-то опыт, поделитесь плюшками.

Заранее спасибо.

ps. быть может есть какая-то библеотека python для этого дела. Это было бы ещё лучше.

Вопрос задан более трёх лет назад
980 просмотров

3 комментария

Подписаться 3 Простой 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 289 просмотров
6

ответов
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 304 просмотра
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 936 просмотров
3

ответа
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 693 просмотра
2

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3813 просмотров
12

ответов
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 480 просмотров
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 3 подписчика
- 25 мая
- 530 просмотров
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 241 просмотр
4

ответа
Веб-разработка

+1 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 2 подписчика
- 22 мая
- 280 просмотров
2

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1193 просмотра
4

ответа
Показать ещё Загружается…

Не улавливаю разницы между парсингом любого другого сайта, и конкретной страницы вебархива... В чем проблема то?

Answer 1 · 2021-06-12 21:02:57

Wayback Machine Downloader называется штуковина — это если все скопировать, а если парсить, т. е. разбирать на части, то тут масса вариантов, к примеру lxml (вроде его используют внутри BeautifulSoup и Scrapy).

Answer 2 · 2021-06-17 11:53:02

как вариант https://github.com/puppeteer/puppeteer, для парсинга сайта. Правда не знаю что вы имеете в виду под "веб-архивом"

Парсинг сайта (его содержимого) из веб-архива. Как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт