Beautiful Soup, html5lib или lxml?

Question

Денис Егоров @ur001

Программист. Искатель. Сноб. Социальный ассоциатор

Beautiful Soup, html5lib или lxml?

Предполагается использование для парсинга пользовательского контента. Соответственно, основное требование — корректная обработка битого HTML. Скорость не критична.

В документации lxml есть вот что:

BeautifulSoup Parser
html5lib Parser

Т.е. оно может парсить с помощью этих библиотек и возвращать дерево lxml. В доках html5lib же сказано:

Support for minidom, ElementTree (including cElementTree and lxml.etree), BeautifulSoup (deprecated) and custom simpletree output formats

Мне скорее всего нужно будет пробегаться по всему DOM-у, думаю SAX будет удобным. Даже так: пробежаться SAX-ом и построить новое дерево с применением определённых фильтрующих-преобразующих правил и типографированием текста.

Вот в раздумье. Подскажите что выбрать?

Вопрос задан более трёх лет назад
11940 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
OTUS

HTML/CSS

3 месяца

Далее

Решения вопроса 1

3 комментария

Денис Егоров @ur001 Автор вопроса

Мне скорость гораздо менее важна чем надёжность. Так как обрабатывать буду пользовательский контент (посты, комменты).

А насколько lxml хуже в плане обработки невалидного html? И знаете ли вы в каком там виде Beautiful Soap /html5lib парссеры — это просто урезаная версия существующих библиотек? Она поддерживается в актуальном состоянии или нет? Или нужно для их использования ставить эти либы?

Написано более трёх лет назад
kmike @kmike

Не знаю, насколько хуже, смотрите для своих задач. html5lib реализует «правильный» разбор, как браузеры (если браузер может что-то более-менее вменяемое показать для куска html, то и html5lib более-менее вменяемо его распарсит), а lxml и BeautifulSoup — это набор хаков на регекспах, пред-, пост-обработке и тд.

Но большинство документов lxml хорошо отпарсит.

В lxml BeautifulSoup-интерфейс требует установленной библиотеки BeautifulSoup и позволяет использовать парсер из BeautifulSoup, но возвращать результаты через API lxml. То же самое с html5lib в lxml — это интерфейс к html5lib.

Написано более трёх лет назад
sim3x @sim3x

@kmike как ты не прав

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

kmike @kmike

Т.к. он медленнее, чем lxml, разрабатывается достаточно коряво (чего стоит удаленная с pypi версия, которая много кому что сломала), а парсит не лучше, чем lxml. И lxml, и BeautifulSoup могут отпарсить большинство невалидных html-документов, но они не справятся с разными «клиническими» случаями, т.к. они основаны, по сути, на наборе регекспов. html5lib справится со всем, но гораздо медленнее. Поэтому если нужна скорость, то лучше брать lxml, если нужна толерантность — то html5lib, а BeautifulSoup имеет смысл брать только если интерфейс BS привычнее или код уже с BS написан.

Написано более трёх лет назад
Денис Егоров @ur001 Автор вопроса

kmike вы уверены, что lxml работает на regexp-ах?

Написано более трёх лет назад
kmike @kmike

Нет, не уверен. Перед тем как писать, я код lxml почитал и нашел там много регекспов, что ввело в заблуждение.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 23 часа назад
- 80 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- вчера
- 74 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 1 подписчик
- вчера
- 40 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 133 просмотра
0

ответов
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 146 просмотров
0

ответов
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 223 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 109 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 129 просмотров
3

ответа
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 172 просмотра
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 117 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Специалист технической поддержки (чат)

WebSoft

от 50 000 до 70 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Answer 1 · 2012-05-11 22:56:51

У html5lib самый корректный и надежный парсер (по спецификации), но она медленная. lxml быстрее всех и парсит достаточно хорошо. Вместо SAX можно iterparse использовать, это удобнее часто, и часто быстрее.

Answer 2 · 2012-05-11 20:35:23

alternativshik @alternativshik

lxml однозначно.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-05-12 04:31:24

pawnhearts @pawnhearts

вообще-то beautifulsoup какраз для битого html разрабатывался, незнаю почему от неё отговаривают.

Ответ написан более трёх лет назад

3 комментария

Answer 4 · 2012-05-21 10:18:39

@ur001, посмотрел еще раз код lxml, там есть много всяких регекспов, разбросанных по модулям ( github.com/lxml/lxml/blob/master/src/lxml/html/clean.py#L62 ), но я был не прав совершенно: парсинг html в lxml основан большей частью на парсинге xml.

Т.е. lxml считает, что html — это просто невалидный xml, который можно поправить. С теоретической точки зрения предположение неверное, для парсинга html5 и xml нужны совсем разные парсеры, но на практике часто работает.

Beautiful Soup, html5lib или lxml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт