Python, проблема?

Question

avonar @avonar

Python

Python, проблема?

pastebin.com/vjn4QeKv

почему этот кусок кода не работает?

нужна строка в юникоде, а оно выдает ошибку

Вопрос задан более трёх лет назад
5861 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

6 комментариев

2 комментария

avonar @avonar Автор вопроса

а зачем там replace?

Написано более трёх лет назад
Сергей @seriyPS
Да, replace не нужен. Я почему-то подумал что readlines() не сохраняет переносы строк и вы так записали для того чтобы поудалять '\n'.
В общем

body=urllib.urlopen(link).read().decode('utf8') print body.encode('cp866')
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 214 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 572 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 501 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 287 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 517 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 216 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 332 просмотра
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 667 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 347 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-05-03 21:30:04

marazmiki @marazmiki

Укротитель питонов

Винда, да? Попробуйте

print link_text.encode('UTF-8')

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2011-05-04 11:47:43

В Windows (включая Win7):

>>> import sys
>>> print sys.stdin.encoding
cp866
>>> print sys.stdout.encoding
cp866

Данная кодировка — это особенность виндового cmd.

Поэтому

print link_text.encode('cp866','replace')

даст в cp866 консоли русский текст, заменяя юникодные символы, которых нет в этой кодировке, на вопросик ("?").
При попытке вывести юникод, данная конверсия, но без замены плохих символов, запустится самостоятельно, и сломается, потому что там присутствуют символы, которые не могут быть представлены в cp866.
Как же найти эти символы?

>>> t=link_text.encode('cp866','replace').decode('cp866')
>>> for i in xrange(len(t)):
>>>      if link_text[i:i+1] != t[i:i+1]: link_text[i:i+1]
>>>
u'\xea'
u'\xab'
u'\xbb'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\xea'
u'\u2014'
>>> import htmlentitydefs
>>> for i in xrange(len(t)):
>>>     if link_text[i:i+1] != t[i:i+1]: htmlentitydefs.codepoint2name[ord(link_text[i:i+1])]
>>> 
'ecirc'
'laquo'
'raquo'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'ecirc'
'mdash'

В общем, как обычно — html entities.

Аналогичные проблемы могут быть в линуксе, при использовании не-utf8 консоли.
Например:
<source lang=«python>
>>> import sys
>>> sys.stdin.encoding
'KOI8-R'
>>> sys.stdout.encoding
'KOI8-R'
>>> e='привет'
>>> e
'\xd0\xbf\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82'
>>> print e
привет
>>> e.decode('koi8-r') #добавил пробелы после каждой \u, для защиты от хабрапарсера
u'\u 043f\x a9\u 044f\u 2500\u 043f\u 2566\u 043f\u 2561\u 043f\u 2563\u 044f\u 250c'
>>> print e.decode('koi8-r')
привет

Как видите, при выводе уникода print конвертирует его в кодировку консоли, а при выводе не-юникода print выводит байты „как есть“.

Answer 3 · 2011-05-03 21:18:08

вы import urllib забыли?

import urllib

link='http://www.barcelona-nsk.ru/catalog/mebel/jacob-delafone/reve/mebel-pod-rakovinu-117x43,5x37sm-reve'

link_text = unicode(''.join(urllib.urlopen(link).readlines()), 'utf-8')

print link_text

Answer 4 · 2011-05-03 23:53:18

какой код чудной)))

Зачем джойнить вывод readlines если можно сделать read().replace('\n', '')?

Я бы в общем записал как-то так

import urllib
link='http://www.barcelona-nsk.ru/catalog/mebel/jacob-delafone/reve/mebel-pod-rakovinu-117x43,5x37sm-reve'
body=urllib.urlopen(link).read().replace('\n', '').decode('utf8')

Хотя возможно и дело вкуса…

А так вам правильно посоветовали см habrahabr.ru/blogs/python/117236/

Python, проблема?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт