Проблемы с кодировкой, как исправить?

Question

kaktak255 @kaktak255

Python

Проблемы с кодировкой, как исправить?

Есть вот такой код который преобразует текст в цифры:

def bins_str(text):
	ASCII_BITS = 8
	def to_bin(c):
		return bin(ord(c))[2:].zfill(ASCII_BITS)

	return ''.join(to_bin(c) for c in text)

inputString = "текст"

bin_str = int(bins_str(inputString), 2) #   результат -  19184738688437314

И код который делает тоже самое но в обратную сторону:

def int_to_text(number):
	ASCII_BITS = 8
	bin_str = bin(number)[2:]
	pad = '0' * (ASCII_BITS - len(bin_str) % ASCII_BITS)
	bin_str = pad + bin_str

	chars = []
	for i in range(0, len(bin_str), ASCII_BITS):
		bin_part = bin_str[i: i + ASCII_BITS]
		c = chr(int(bin_part, 2))
		chars.append(c)

	return ''.join(chars)

asd = int_to_text(19184738688437314)  #  результат  -   D(k¢B , а должно быть  -  текст

В общем что то не так с кодировкой , и только с русскими символами , если использовать английские то все нормально

Вопрос задан более трёх лет назад
83 просмотра

4 комментария

Подписаться 1 Сложный 4 комментария

Yupiter7575 @yupiter7575

# -*- coding: utf-8 -*-
В начало файла

Написано более трёх лет назад
kaktak255 @kaktak255 Автор вопроса

yupiter7575, не помогло

Написано более трёх лет назад
Andy_U @Andy_U

yupiter7575, Для 3-го питона не нужно. Default.

Написано более трёх лет назад
shurshur @shurshur
Я бы рекомендовал от строки вызывать encode перед побайтовой работы с ней, много вопросов отпадёт.

>>> s="ляляля" >>> type(s) <class 'str'> >>> s.encode() b'\xd0\xbb\xd1\x8f\xd0\xbb\xd1\x8f\xd0\xbb\xd1\x8f' >>> type(s.encode()) <class 'bytes'>

Что касается задачи, десятичные цифры плохо так использовать, потому что байт может в десятичном выражении представлять 1-2-3 цифры, и 250 может означать как b'\x02\x32', так и b'\xfa'.
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 93 просмотра
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 130 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 197 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 219 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 77 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 199 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 231 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 248 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 239 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

yupiter7575, Для 3-го питона не нужно. Default.
Я бы рекомендовал от строки вызывать encode перед побайтовой работы с ней, много вопросов отпадёт.

>>> s="ляляля" >>> type(s) <class 'str'> >>> s.encode() b'\xd0\xbb\xd1\x8f\xd0\xbb\xd1\x8f\xd0\xbb\xd1\x8f' >>> type(s.encode()) <class 'bytes'>

Что касается задачи, десятичные цифры плохо так использовать, потому что байт может в десятичном выражении представлять 1-2-3 цифры, и 250 может означать как b'\x02\x32', так и b'\xfa'.

Answer 1 · 2021-03-28 12:41:46

В python3 строки - юникодные, ord(c) возвращает unicode код символа, который только для ASCII символов будет в диапазоне 0-255 (0-127, точнее, 128-255 - расширенная латиница). Для кириллицы код занимает 2 байта.

Я не очень понимаю, что вы вообще делаете. Если конкретизируете, что именно за число должно быть, можно написать код (скорее всего, с гораздо меньшими извращениями).

Answer 2 · 2021-03-29 20:50:18

Записывайте. Даю удочку. Рассказываю, как дебажить:

Смотрите каждое промежуточное и думайте, корректное оно или нет.

Если действие сложное, развивайте на части поменьше.
У вас вообще прямая функция и обратная. Это значит вы просто должны увидеть, в каком месте они начинают различаться.

Например, подайте на вход прямой функции текст "D(k¢B"...

А вообще, да. bin(ord(русска_буква)) будет больше чем 8 символов.

Проблемы с кодировкой, как исправить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт