Для ваших целей можно использовать, например,
htmlcleaner. Простенькая библиотека для дом-парсинга.
Еще есть
Html Parser, он довольно громоздкий, но зато поддерживает CSS селекторы.
В плане скорости, конечно же лучше всего будет воспользоваться
SAX xml парсером.