Ответы, понравившиеся пользователю Fantinum

Задать вопрос

Лайки

Проблема с кодировкой при парсинге русского сайта?

igorzakhar @igorzakhar

Смотрим HTML через, например, Chrome DevTools:

Читаем в документации к BeautifulSoup 4 (раздел "Entities" ):

An incoming HTML or XML entity is always converted into the corresponding Unicode character.

>>> from urllib.request import urlopen
>>> from bs4 import BeautifulSoup
>>> html = urlopen('https://beton24.ru/sochi/beton/')
>>> bs = BeautifulSoup(html.read(), 'lxml')
>>> result = bs.findAll("span", "catalog-index__link-text")[1]
>>> result.text.replace(u'\xa0',' ').replace(u'\u2009', '')
'от 3836 ₽'

Ответ написан более трёх лет назад

Комментировать

Самые активные сегодня

Drno
- 6 ответов
- 0 вопросов
VoidVolker
- 4 ответа
- 0 вопросов
Zerg89
- 2 ответа
- 0 вопросов
Василий Банников
- 2 ответа
- 0 вопросов
Михаил Лялин
- 2 ответа
- 0 вопросов
rPman
- 2 ответа
- 0 вопросов

Проблема с кодировкой при парсинге русского сайта?

Войдите на сайт