Как декодироавать строку без искажений?

Question

serhiops @serhiops

Python/JavaScript/C++

Как декодироавать строку без искажений?

Мне в качестве респонса от сервера прилетает строка такого типа:

b'\\r\\n\\r\\n\\u003cdiv id=\\"iwwait\\" class=\\"hm_overlay\\"\\u003e\\r\\n    \\u003cdiv class=\\"hm_loader\\"\\u003e\\r\\n    \\u003c/div\\u003e\\r\\n\\u003c/div\\u003e\\r\\n\\u003cdiv class=\\"hm_h_020\\"\\u003e\\u003c/div\\u003e\\r\\n\\u003cdiv\\u003e\\r\\n    \\r\\n    \\u003cdiv'

Чтобы распарсить я просто декодирую ее вот так:

html = server_response.decode('unicode_escape', 'ignore')

Оно правильно убирает все юникод символы, но при этом искажает некоторый текст. Например:
Zentrumsnähe -> ZentrumsnÃ¤he
При этом я сначала пробывал декдодить его в utf-8 и только потом в unicode_escape. Работает так же само. Как можно декодировать такой тип строк силами Python?

Вопрос задан более двух лет назад
131 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

serhiops @serhiops Автор вопроса

Не работает. Выдает такой же результат, вот ссылка на полный reponse:
https://gist.github.com/serrhiy/56b1f296cb7b4fbf42...

Написано более двух лет назад

Михаил Р. @Mike_Ro Куратор тега Python

serhiops, а так?

server_response = b'\\r\\n\\r\\n\\u003cdiv id=\\"iwwait\\" class=\\"hm_overlay\\"\\u003e\\r\\n    \\u003cdiv class=\\"hm_loader\\"\\u003e\\r\\n    \\u003c/div\\u003e\\r\\n\\u003c/div\\u003e\\r\\n\\u003cdiv class=\\"hm_h_020\\"\\u003e\\u003c/div\\u003e\\r\\n\\u003cdiv\\u003e\\r\\n    \\r\\n    \\u003cdiv Zentrumsn\\xe4he'

decoded_response = server_response.decode('latin1')
final_response = decoded_response.encode('latin1').decode('unicode_escape')
print(final_response)

Написано более двух лет назад

serhiops @serhiops Автор вопроса

Михаил Р., а разве что-то поменялось? Не работает, очень странная вещь, ведь если перевести в utf-8, отображается нормально, но при этом не экранируется юникод :(

Написано более двух лет назад
Михаил Р. @Mike_Ro Куратор тега Python

serhiops, извините, копипаст на телефоне не сработал, а я думал вставился нужный код. Обновил ответ, теперь все работает.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 17 часов назад
- 49 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 82 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 274 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 641 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 306 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 561 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2024-07-01 16:50:57

server_response = "..."  # https://gist.github.com/serrhiy/56b1f296cb7b4fbf42febaf8c08347a1

def decode_unicode_escapes(string):
    return re.sub(r'\\u([0-9A-Fa-f]{4})', lambda m: chr(int(m.group(1), 16)), string)

unicode_decoded = decode_unicode_escapes(server_response)

try:
    res = unicode_decoded.encode('utf-8').decode('utf-8')
except UnicodeEncodeError as e:
    print(f"Ошибка: {e}.")
    res = unicode_decoded.encode('utf-8', errors='replace').decode('utf-8', errors='replace')

print(res)  # <a href='https://www.immowelt.de/immoweltag/datenschutz' target="_blank" class="hm_link" title="Datenschutzerklärung der AVIV Germany GmbH">

Как декодироавать строку без искажений?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт