HTML - это тоже (подмножество) XML. Правда, временами, невалидное. Поэтому иногда нужно использовать парсеры, которые игнорируют ошибки (часто они называются DOM парсеры, и именно их вы и встретите как библиотеки для парсинга XML)
DOM парсер представляет данные в структуре, обращаться к которой, обычно, можно с помощью CSS селекторов или XPATH селекторов. Так же такую можно преобразовать XML в любой необходимый вид с помощью XSLT.
Так что, ответ на вопрос: любой сайт можно "спарсить как XML"