С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Question

darzet @darzet

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Доброго, Хабражители.
Прошу совета у знающих людей.
У меня следующая проблема.
Есть сотенка однотипных html документов.
Мне надо вытащить из них все содержимое тега
Говоря языком XPAth html/body/text()
и поместить в один текстовый файлик.
Затем в этом файлике сделать десяток автозамен, чтобы
привести форматирование к нужному виду.
к примеру s/<вr>/<вr>\n/

Советуют разное. Изучать Perl или php.
Учить shell.
Подскажите какими средствами подобное делать лучше всего.
Просто не хочется забивать гвозди микроскопом.

Вопрос задан более трёх лет назад
3718 просмотров

2 комментария

Подписаться 5 Оценить 2 комментария

все текстовое содержимое или вместе с разметкой нужно вытащить?
Вместе с разметкой вытаскиваю.
А затем делаю автозамены так чтобы получилось новое нужное мне форматирование.

Answer 1 · 2011-07-22 20:25:47

m08pvv @m08pvv

Зависит от сложности страничек — может можно и простым grep'ом обойтись.

Ответ написан более трёх лет назад

Комментировать

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Войдите на сайт