Что выбрать:
1. Взять библиотеку
jsoup.
2. Взять библиотеку
HtmlCleaner.
3. Какой-нибудь библиотекой (какой?) привести HTML к валидному XML (xhtml) и использовать XML SOX parser.
4. Что ещё?
Вижу предпочтительной возможность скормить библиотеке скачанные байты, а не заставлять её ходить по URL, ибо кто меня знает откуда и как я захочу эту страницу скачать, в каком порядке и какие HTTP-заголовки отправить.
Спасибо.