Задать вопрос

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Доброго, Хабражители.
Прошу совета у знающих людей.
У меня следующая проблема.
Есть сотенка однотипных html документов.
Мне надо вытащить из них все содержимое тега
Говоря языком XPAth html/body/text()
и поместить в один текстовый файлик.
Затем в этом файлике сделать десяток автозамен, чтобы
привести форматирование к нужному виду.
к примеру s/<вr>/<вr>\n/

Советуют разное. Изучать Perl или php.
Учить shell.
Подскажите какими средствами подобное делать лучше всего.
Просто не хочется забивать гвозди микроскопом.
  • Вопрос задан
  • 3718 просмотров
Подписаться 5 Оценить 2 комментария
Ответ пользователя m08pvv К ответам на вопрос (13)
m08pvv
@m08pvv
Зависит от сложности страничек — может можно и простым grep'ом обойтись.
Ответ написан
Комментировать