Предполагается использование для парсинга пользовательского контента. Соответственно, основное требование — корректная обработка битого HTML. Скорость не критична.
В документации
lxml есть вот что:
- BeautifulSoup Parser
- html5lib Parser
Т.е. оно может парсить с помощью этих библиотек и возвращать дерево
lxml. В доках
html5lib же сказано:
Support for minidom, ElementTree (including cElementTree and lxml.etree), BeautifulSoup (deprecated) and custom simpletree output formats
Мне скорее всего нужно будет пробегаться по всему DOM-у, думаю SAX будет удобным. Даже так: пробежаться SAX-ом и построить новое дерево с применением определённых фильтрующих-преобразующих правил и типографированием текста.
Вот в раздумье. Подскажите что выбрать?