Ответы пользователя Илья по тегу «lxml» — Хабр Q&A

Задать вопрос

Ответы пользователя по тегу lxml

Как правильно парсить utf-8 в lxml?
Илья @766dt Автор вопроса
Вобщем, проблема оказалась в странном поведении chardet:
>>> cchardet.detect('Hyvä juoni'.encode()) {'confidence': 0.8032709360122681, 'encoding': 'WINDOWS-1252'} >>> cchardet.detect('Hyv juoni'.encode()) {'confidence': 0.0, 'encoding': 'ASCII'} >>> cchardet.detect('ä'.encode()) {'confidence': 0.5049999952316284, 'encoding': 'UTF-8'}

Пока лучшее, что придумал, это вручную задавать кодировку контента, если она известна.
fragment = fromstring(content, parser = lxml.html.HTMLParser(encoding='utf-8'))

А вот если кодировка неизвестна, и при этом неверно определяется при помощи chardet, то решения я пока не вижу.

Ответ написан более трёх лет назад

Комментировать
Комментировать

Самые активные сегодня

Dupych
- 2 ответа
- 0 вопросов
GavriKos
- 1 ответ
- 0 вопросов
ElxkoT
- 1 ответ
- 0 вопросов
Valdemar Smörman
- 1 ответ
- 0 вопросов
U1HOST
- 1 ответ
- 0 вопросов
rPman
- 1 ответ
- 0 вопросов