Мне кажется, что базовым знанием для работы с массивами текста являются регулярные выражения (см. книги Дж.Фридла). А дальше идут инструменты, которые позволяют более или менее удобно работать с рекэкспами. Под Win мой герой — это мегакомбайн PowerGrep!
А если учить ничего не хочется, можно объединить все файлы в один «copy *.html alltext.txt» и далее мучить его в текстовых редакторах и сортировать в Excel.