Как настроить кодировку при сохранении html файла в urllib (python 3.4)?

Question

Mist8 @Mist8

Python

Как настроить кодировку при сохранении html файла в urllib (python 3.4)?

Нужно скачать и сохранить станицу. Простая задача, но не понимаю что делать с кодировкой.

import urllib.request

url = 'http://yandex.ru'
html = urllib.request.urlopen(url).read()

f = open('page.html', 'w')
f.write(str(html))

Код сохраняет страницу, но в неправильной кодировке. Что нужно исправить в коде, чтобы страница сохранялась в правильной кодировке? Если распечатать print(html) - так же неправильная кодировка.

Вопрос задан более трёх лет назад
3471 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

6 комментариев

Mist8 @Mist8 Автор вопроса

Андрей Дугин на странице в meta и сервер отдает windows-1251. В вашем примере пробовал заменить decode('windows-1251').encode('cp1251') и decode('windows-1251').encode('utf-8') - но все равно кодировка неправильная, если пытаюсь открыть/распечатать результат.

str(html) - лишнее, html и так строка - сначала без str(html) писал, но тогда возникает ошибка: TypeError: must be str, not bytes Не пойму откуда она, т.к. в примерах, как вы и написали, работает без str()

Написано более трёх лет назад
Andrey Dugin @adugin Куратор тега Python

Mist8: ссылку на страницу, которую пытаетесь скачать, можете дать?

Написано более трёх лет назад
Mist8 @Mist8 Автор вопроса

Андрей Дугин: classic.dzzzr.ru/moscow/?section=arc&gmid=893&what...

Написано более трёх лет назад

Andrey Dugin @adugin Куратор тега Python

В Python 2.7 всё ОК:

# -*- coding: utf-8 -*-

import urllib

url = 'http://classic.dzzzr.ru/moscow/?section=arc&gmid=893&what=comment'
html = urllib.urlopen(url).read()

with open('z:\page.html', 'w') as f:
    	f.write(html)

Написано более трёх лет назад

Andrey Dugin @adugin Куратор тега Python

В Python 3.x по умолчанию юникод, можно попробовать .encode('cp1251')

Написано более трёх лет назад
Mist8 @Mist8 Автор вопроса

Андрей Дугин: помогло просто html = urllib.request.urlopen(url).read().decode('cp1251')

Написано более трёх лет назад

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 68 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 229 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 228 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 630 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 304 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 139 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-04-09 21:27:58

1) Какая кодировка прописана в заголовках meta самой страницы, и также о какой кодировке сообщает сервер?
2) В какую кодировку всё это сохраняется, и соответствует ли кодировка в meta фактической кодировке?

Технически просто - если, скажем, страница в utf-8, а надо сохранить в cp1251:

html = urllib.request.urlopen(url).read().decode('utf-8').encode('cp1251')

... и проверить кодировку в meta-заголовке сохранённой страницы.

str(html) - лишнее, html и так строка.

Answer 2 · 2015-04-09 23:12:46

Решение (добавить к строке запроса ".decode('cp1251')" ):

import urllib.request


url = 'http://example.com'

html = urllib.request.urlopen(url).read().decode('cp1251')

f = open('page.html', 'w')
f.write(html)

Как настроить кодировку при сохранении html файла в urllib (python 3.4)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт