Как правильно парсить utf-8 в lxml?

Question

Илья @766dt

Как правильно парсить utf-8 в lxml?

В соответствии с документацией lxml (+ вопрос на SO), на вход lxml.html.fromstring() необходимо подавать нераскодированную строку, поскольку lxml сам будет пытаться определять кодировку, а в противном случае, при наличии недопустимых символов в уже раскодированной строке, будет поднимать такую ошибку:

ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.

Сделал как рекомендовано, но столкнулся с проблемой, когда некоторые символы не обрабатываются корректно. При этом всё нормально, если вручную раскодировать строку:

>>> bs = b'Hyv\xc3\xa4 juoni!'
>>> lxml.html.fromstring(bs).text
'HyvÃ¤ juoni!'
>>> lxml.html.fromstring(bs.decode()).text
'Hyvä juoni!'

Собственно вопрос, как заставить lxml корректно декодировать utf-8?

Вопрос задан более трёх лет назад
5925 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

2 комментария

Илья @766dt Автор вопроса

lxml пытается сам найти объявленную кодировку в нескольких местах, вроде тега meta... , а если не находит, пытается(насколько я понимаю) определить кодировку через chardet.
Проблема у меня возникла с парсингом неполных html документов, в которых кодировка явным способом не обозначена, а chardet определяет кодировку некорректно.
А до передачи декодировать нельзя, если кратко, то потому что так написано в документации к lxml.

Написано более трёх лет назад
abcd0x00 @abcd0x00

Илья:
А до передачи декодировать нельзя, если кратко, то потому что так написано в документации к lxml.

До передачи можно раскодировать, если в фрагменте не указана кодировка.
Если кодировка во фрагменте указана, то раскодировать не надо, он сам раскодирует.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 200 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 525 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 486 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 277 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 501 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-02-18 16:47:26

Вобщем, проблема оказалась в странном поведении chardet:

>>> cchardet.detect('Hyvä juoni'.encode())
{'confidence': 0.8032709360122681, 'encoding': 'WINDOWS-1252'}
>>> cchardet.detect('Hyv juoni'.encode())
{'confidence': 0.0, 'encoding': 'ASCII'}
>>> cchardet.detect('ä'.encode())
{'confidence': 0.5049999952316284, 'encoding': 'UTF-8'}

Пока лучшее, что придумал, это вручную задавать кодировку контента, если она известна.

fragment = fromstring(content, parser = lxml.html.HTMLParser(encoding='utf-8'))

А вот если кодировка неизвестна, и при этом неверно определяется при помощи chardet, то решения я пока не вижу.

Answer 2 · 2016-02-20 13:41:07

Если кодировка не объявлена, откуда он узнает, что там utf-8?
Декодируй до передачи.

>>> import lxml.html
>>> 
>>> s = b'<div>Hyv\xc3\xa4 juoni!</div>'.decode('utf-8')
>>> 
>>> doc = lxml.html.fromstring(s)
>>> doc
<Element div at 0xb744be3c>
>>> doc.text
'Hyvä juoni!'
>>>

Answer 3 · 2022-05-31 13:18:47

Нужно просто убрать объявление кодировки в начале страницы (в ошибке как раз написано, что проблема с объявлением кодировки).

Например:
tree = lxml.html.fromstring(resp.text.replace("<?xml version=\'1.0\' encoding=\'UTF-8\'?>", ""))

После этого Вы сможете спарсить данные

Как правильно парсить utf-8 в lxml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт