Парсинг сайта (его содержимого) из веб-архива. Как?
Всем доброго времени суток!
Собственно, вопрос непосредственно в заголовке. Как сегодня лучше всего вытянуть содержимое (или сам сайт) из веб-архива?
Быть может есть у кого-то опыт, поделитесь плюшками.
Заранее спасибо.
ps. быть может есть какая-то библеотека python для этого дела. Это было бы ещё лучше.
Wayback Machine Downloader называется штуковина — это если все скопировать, а если парсить, т. е. разбирать на части, то тут масса вариантов, к примеру lxml (вроде его используют внутри BeautifulSoup и Scrapy).