Как перекодировать windows-1251 в utf-8 при парсинге?

Question

plyk @plyk

Python

Как перекодировать windows-1251 в utf-8 при парсинге?

У сайта есть:

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251">

При запуске кода:

response = requests.get('url', headers = {'UserAgent': UserAgent().Chrome})

print(response.text)

Ответ примерно такой:

<font face="Verdana"><font color="#FFFFCC" size="2">Óïðàæíåíèå XXVI/6: ãðóïïèðîâàíèå</font><br>

Если это сохранить при помощи:

with open('1.html', 'w', encoding='utf-8') as file:
    file.write(response.text)

То ничего не изменится.
Если просто, то надо сделать текст читаемым, чтоб при просмотре в bs4 и последующем сохранении в файлы можно было видеть текст в utf-8.
Как быть?

Вопрос задан более трёх лет назад
8641 просмотр

8 комментариев

Подписаться 1 Простой 8 комментариев

galaxy @galaxy

покажите что ли сайт

Написано более трёх лет назад
Drill @Drill

А что показывает response.encoding ?
Похоже, что сайт отдает кириллицу в кодировке win-1252

Написано более трёх лет назад
javedimka @javedimka

То есть сайт тебе говорит, что у него кодировка cp1251, но ты решаешь сохранять как utf-8. А ты хорош.

Написано более трёх лет назад
galaxy @galaxy

javedimka, не пишите ерунды, если не знаете, как работает requests и строки в питоне

Написано более трёх лет назад
javedimka @javedimka

galaxy, Я об том, что requests правильно распарсить ответ не сможет, так как смотрит на заголовки, а не в тело запроса.

Написано более трёх лет назад
galaxy @galaxy

javedimka, если закрыть глаза на хамство, в этом твоем комментарии есть смысл, в отличии от первого

Написано более трёх лет назад
javedimka @javedimka

galaxy, Прошу прощения, зря быканул.

Написано более трёх лет назад
galaxy @galaxy
plyk, сайта мы от вас не дождемся, наверно. Скорее всего, кодировку в заголовках он не отдает, а мета-теги парсить, как верно заметил javedimka, не дело requests.
Попробуйте так:

response.encoding = 'cp1251' print(response.text)
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 80 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 92 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 315 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 235 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 659 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 551 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 141 просмотр
1

ответ
Показать ещё Загружается…

А что показывает response.encoding ?
Похоже, что сайт отдает кириллицу в кодировке win-1252
То есть сайт тебе говорит, что у него кодировка cp1251, но ты решаешь сохранять как utf-8. А ты хорош.
javedimka, не пишите ерунды, если не знаете, как работает requests и строки в питоне
galaxy, Я об том, что requests правильно распарсить ответ не сможет, так как смотрит на заголовки, а не в тело запроса.
javedimka, если закрыть глаза на хамство, в этом твоем комментарии есть смысл, в отличии от первого
plyk, сайта мы от вас не дождемся, наверно. Скорее всего, кодировку в заголовках он не отдает, а мета-теги парсить, как верно заметил javedimka, не дело requests.
Попробуйте так:

response.encoding = 'cp1251' print(response.text)

Answer 1 · 2021-05-21 20:21:04

Оказалось что библиотека Requests кодирует данные в кодировку Latin-1(ISO-8859-1), сайт же отправляет данные с кодировкой windows-1251. Получалось что библиотека перекодировала данные сайта в другую кодировку.
Решил так:

sourse = requests.get('url')
sourse.encoding='windows-1251' # Теперь requests отдаёт данные в кодировке windows-1251 которая уже нормально читается

В принципе можно остаться на этой кодировке если при записи в файл указать encoding='utf-8'
Ну если прям сильно хочется перекодировать в utf-8, можно раскодировать текст в utf-8 а потом закодировать в него

# if text is windows-1251
text = '123 asdasd 55f'
text = encode('utf-8').decode('utf-8')

Answer 2 · 2021-05-21 14:22:57

12rbah @12rbah

В чем проблема переконвертировать текст в utf-8? https://stackoverflow.com/questions/7555335/how-to...

Ответ написан более трёх лет назад

1 комментарий

Как перекодировать windows-1251 в utf-8 при парсинге?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт