С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?
Доброго, Хабражители.
Прошу совета у знающих людей.
У меня следующая проблема.
Есть сотенка однотипных html документов.
Мне надо вытащить из них все содержимое тега Говоря языком XPAth html/body/text()
и поместить в один текстовый файлик.
Затем в этом файлике сделать десяток автозамен, чтобы
привести форматирование к нужному виду. к примеру s/<вr>/<вr>\n/
Советуют разное. Изучать Perl или php.
Учить shell.
Подскажите какими средствами подобное делать лучше всего.
Просто не хочется забивать гвозди микроскопом.