Парсинг сайта (его содержимого) из веб-архива. Как?

Question

mRelby @mRelby

Парсинг сайта (его содержимого) из веб-архива. Как?

Всем доброго времени суток!

Собственно, вопрос непосредственно в заголовке. Как сегодня лучше всего вытянуть содержимое (или сам сайт) из веб-архива?
Быть может есть у кого-то опыт, поделитесь плюшками.

Заранее спасибо.

ps. быть может есть какая-то библеотека python для этого дела. Это было бы ещё лучше.

Вопрос задан более трёх лет назад
920 просмотров

3 комментария

Подписаться 3 Простой 3 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+1 ещё

Средний
Как корректно реализовывать согласие пользователя на обработку персональных данных, в связи с новыми правками?
- 6 подписчиков
- 03 окт.
- 567 просмотров
3

ответа
Веб-разработка

Простой
На сколько важно использовать услугу «Настройка защищенного соединения» от Timeweb?
- 2 подписчика
- 03 окт.
- 189 просмотров
3

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 196 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 186 просмотров
0

ответов
Веб-разработка

Простой
Как определить от какого агрегатора пришел webhook?
- 1 подписчик
- 20 сент.
- 177 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 1051 просмотр
2

ответа
HTML

+4 ещё

Средний
Кривое отображение сайта на iOS-устройствах?
- 2 подписчика
- 13 сент.
- 402 просмотра
1

ответ
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 188 просмотров
3

ответа
Веб-разработка

+1 ещё

Простой
Предупреждение сафари на сайте. Как его убрать?
- 1 подписчик
- 09 сент.
- 211 просмотров
0

ответов
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 224 просмотра
2

ответа
Показать ещё Загружается…

Senior WEB Developer

OfferCase • Москва

от 300 000 ₽

Fullstack-разработчик сайтов laravel

WEB ALTERNATIVE

от 65 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 80 000 до 120 000 ₽

Не улавливаю разницы между парсингом любого другого сайта, и конкретной страницы вебархива... В чем проблема то?

Answer 1 · 2021-06-12 21:02:57

Wayback Machine Downloader называется штуковина — это если все скопировать, а если парсить, т. е. разбирать на части, то тут масса вариантов, к примеру lxml (вроде его используют внутри BeautifulSoup и Scrapy).

Answer 2 · 2021-06-17 11:53:02

как вариант https://github.com/puppeteer/puppeteer, для парсинга сайта. Правда не знаю что вы имеете в виду под "веб-архивом"

Парсинг сайта (его содержимого) из веб-архива. Как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт