Почему configparser иногда не может правильно обработать русские символы в названии секции?

Question

TemaKam @TemaKam

Python

Почему configparser иногда не может правильно обработать русские символы в названии секции?

Traceback (most recent call last):
  File "", line 1241, in startli_task_f
    cfg[self.task_name].update({'task_startli': str(self.startli_task.isChecked())})
  File "lib\configparser.py", line 960, in __getitem__
    raise KeyError(key)
KeyError: '╧хЁхўхъ'

причем где-то раз в 10-20 использований такое, остальные разы нормально считывает русские символы
как это исправить?

записываю как (в self.task_name эти русские символы):

cfg = ConfigParser()
cfg.read('settings/default/tasks.ini', encoding='utf-8')
cfg[self.task_name].update({'task_startli': str(self.startli_task.isChecked())})
with open('settings/default/tasks.ini', 'w', encoding='utf-8') as setfile:
    cfg.write(setfile)

файл в utf-8

self.task_name - классовая переменная инициализируется при создании класса в __init__
берется из параметра этой функции, а как параметр попадает из другого класса - из формы приложения на pyqt5, а именно QTextBrowser.toPlainText()
затем не меняется в этом классе вообще

с cfg.set также бывает, и еще выводил в консоль self.task_name, даже в консоли нормально выводит, но конфигпарсеру иногда не нравится

Перечек
Traceback (most recent call last):
  File "", line 1242, in startli_task_f
    cfg.set(self.task_name, 'task_startli', str(self.startli_task.isChecked()))
  File "", line 1201, in set
    super().set(section, option, value)
  File "", line 902, in set
    raise NoSectionError(section) from None
configparser.NoSectionError: No section: '╧хЁхўхъ'

Вопрос задан более трёх лет назад
645 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

17 комментариев

TemaKam @TemaKam Автор вопроса

вот с использованием repr вывел значение

'Перечек'
Traceback (most recent call last):
  File ", line 1242, in startli_task_f
    cfg[self.task_name].update({'task_startli': str(self.startli_task.isChecked())})
  File "configparser.py", line 960, in __getitem__
    raise KeyError(key)
KeyError: '╧хЁхўхъ'

когда без ошибки - выводит то же самое

Написано более трёх лет назад

Сергей П @trapwalker Куратор тега Python

TemaKam, то, что у вас там хрень выводится - это уже признак некорректно работы с кодировками. Исправляйте её и всё станет нормально.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

TemaKam, Более подробные рекомендации могу дать только посмотрев код, по этим обрывкам ничего не скажешь

Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, можете подсказать, что конкретно нужно с кодировкой и где (при открытии файла, при чтении ли, или вообще при работе с переменной...)?

self.task_name изначально из QTextBrowser.toPlainText() (https://doc.qt.io/qt-5/qtextedit.html#toPlainText) идет, и дальше не меняется, остается в переменной класса
и вот при использовании этой переменной в качестве названия секции такая ошибка, конфиг только так открываю, как в отрывке кода, с кодировками нет ничего больше

просто что еще может понадобится из кода не понимаю, так бы выложил больше, вроде же только это и связано с открытием, чтением и записью в файл конфига

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

TemaKam, типичная проблема с кодировкой - это ее некоректное преобразование.
Есть два корректных действия: кодирования из юникода в байты (то есть в конкретную кодировку). При этом накосячить как-то трудно. Нужно просто знать в какую кодировку конвертировать. Если вы в лнуксе, то у вас нет никаких проблем. просто конвертируйте в utf-8 и скорее всего не ошибётесь. Имеет смысл всё держать в этой кодировке.
Если вы в винде, то в зависимости от ситуации вам может понадобиться сконвертировать текст в cp1251, cp866, utf-8, utf-32 и в некоторых случаях однозначно узнать в какую именно не всегда можно и нужно правильно выбрать умолчание.
При декодировании из байтов в юникод можно накосячить сильнее, если неправильно указать исходную кодировку. При этом текст повреждается, причем не всегда обратимо. Нужно очень аккурантно определять входную кодировку и, если нельзя однозначно получить ее из метаданных входного канала, нужно корректно указать умолчания.

Есть еще один широкий класс ситуаций, когда текст приходит на вход уже поломанный неправильным преобразованием из одной кодировки в другую. То есть какая-то другая программа сделала некорректное преобраование (возможно необратимое) и сохранила рзультат в пайп или файл, а потом этот поломанный текст поступил вам в программу. К таким ситуациям лучше не приспосаливаться, а исправлять проблему в точке ее появления, то есть правильно настроить всё там, где кодировка ломается.
В вашем случае, возможно, слеует правильно настроить кодировку страницы, которая в вашем браузере открыта, или указать кодировку по умолчанию.

Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, это не совсем браузер, форма приложения pyqt

spoiler

попробовал прописать в html charset, но не помогло
я сам на винде
мне надо использовать encode('utf-8') и после этого уже передавать?

Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса
Сергей Паньков, сравнил еще после encode('utf-8'), не отличается при ошибке и без ошибки

b'\xd0\x9f\xd0\xb5\xd1\x80\xd0\xb5\xd1\x87\xd0\xb5\xd0\xba' b'\xd0\x9f\xd0\xb5\xd1\x80\xd0\xb5\xd1\x87\xd0\xb5\xd0\xba'

в cp121, cp866 аналогично не отличаются
Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python
TemaKam,

In [7]: b'\xd0\x9f\xd0\xb5\xd1\x80\xd0\xb5\xd1\x87\xd0\xb5\xd0\xba'.decode('utf-8') Out[7]: 'Перечек'

Это значит, что ваши байты - это utf-8.
Декодируйте из utf-8. Не работайте нигде с закодированными строками.
Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, вы наверно не так поняли
это я выводил в консоль именно как self.task_name.encode('utf-8') - и сравнил, одно и то же выводит при ошибки и без ошибки
изначально то есть работа с обычной строкой str
мне нужно сделать self.task_name.encode('utf-8').decode('utf-8') - и уже это передавать дальше?
хотя нет, не помогло...(

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python
TemaKam, зачем?!

сделать self.task_name.encode('utf-8').decode('utf-8')

Такое ощущение, что вы гадаете и пытаетесь решить проблему методом перебора буков!
Прекратите страдать хренью.
Если тсрока уже в юникоде (str в случае 3 питона) и в ней понятный нормальный текст на человеческом языке, то проблема не здесь. Вы просто её ищете не там, где она есть, а "под фонарём", там где вам удобно искать.

Вот вы цитировали проблему:

'Перечек' Traceback (most recent call last): File ", line 1242, in startli_task_f cfg[self.task_name].update({'task_startli': str(self.startli_task.isChecked())}) File "configparser.py", line 960, in __getitem__ raise KeyError(key) KeyError: '╧хЁхўхъ'

Разберитесь, почему у вас происходит некорректное преобразование кодировки. Настройте правильное преобразование.
Перехватите ошибку онструкцией try\except и в случае ошибки добавьте логирование всео что необходимо для анализа проблемы: repr(cfg), repr(self.task_name).
И всё станет ясно.

А вы гадаете на кофейной гуще и пытаетесь методом проб и ошибок написать что-нибудь, чтобы проблема исчезла.
Если не знаете и не хотите разбираться как в винде и питоне правильно работать с кодировками, поставьте себе линукс (например убунту) и работайте в нём. Вам будет проще.
Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, строка да, в юникоде значит
в этом и суть, repr же правильную кодировку выдавал (нормальный текст), ну и ведь должно же иметь значение то, что эта ошибка вылазит раз в 10 изменений конфига, а не каждый раз. Или нет?

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

TemaKam, Вот эта ваша уверенность, что "я ничего не трошал, а оно то так то эдак работает" звучит, будто вы что-то важное упускаете или не так понимаете. Нужно не гадать, а делить проблему на части и отлаживать по отдельности.

Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, я просто не понимаю, где может быть проблема
repr(self.task_name) же уже выводил в консоль - там не кракозябры были
что же еще нужно проверять?

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

TemaKam, я же написал вам уже!

Разберитесь, почему у вас происходит некорректное преобразование кодировки. Настройте правильное преобразование.
Перехватите ошибку онструкцией try\except и в случае ошибки добавьте логирование всео что необходимо для анализа проблемы: repr(cfg), repr(self.task_name).

Чем это не устраивает? Если ошибка вопроизводится, то в чем проблема проверить как я здесь предложил?

Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса
Сергей Паньков, ну я это уже выводил, а repr(cfg) просто объект выведет

'Перечек' <configparser.ConfigParser object at 0x056C6C28>
Написано более трёх лет назад
TemaKam @TemaKam Автор вопроса

Сергей Паньков, вообще мне кажется что проблема НЕ с кодировкой, это же может быть так?

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

TemaKam, у вас там проблема в вашем непонимании что происходит и как проанализировать ситуацию. То, что у вас там еще и с кодирокой проблемы, лишь дополняет картину. Вы нигде не приводите содержимого вашего конфига. Если там есть кириллица, то следует понимать в какой кодировке у вас она там. А вы, судя по всему. пытаетесь решить проблему по гороскопу, гадая на кофейной гуще, задавая некорректные вопросы и не предоставляя полной информации, чтобы вам могли помочь.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 73 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 243 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 231 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 637 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 559 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-03-12 10:04:27

Ух каша у вас какая-то тут из гипотез, суеверий, заблуждений и кусков кода, которые, как вам кажется, полностью обрисовывают проблему. А проблема у вас в том, что вы неправильно работаете с кодировками.

Общие правила работы с кодировками в питоне я уже много раз рассказывал на этом ресурсе.
На входе в программу мы всё переводим в юникод, а на выходе всё кодируем в байты.
Для ясности: юникод - это не кодировка, это абстрактный способ однозначной нумерации символов. Кодировка - это способ представить символ (а символ имеет свой однозначный код в таблице Юникода) в виде набора байт.
Итак, текст в юникоде - - это, образно говоря, последовтаельность номеров символов из таблицы юникода.
Текст в любой кодировке - это последовательность байтов.
Важно отметить, что так или инае номера юникода тоже внутри компа хранятся как байты, а питон с ними работает не как с массивом чисел, а как с объектом "строка", значит внутри он всё же хранит юникод в какой-то специальной кодировке, но тут есть важная деталь.

Есть кодировки, способные представить ВСЕ возможные символы Юникода, а есть кодировки, которые могут представить только некоторое подмножество этих символов. К первым относятся UTF-8, UTF-16, UTF-32 - они по-разному представляют номер символа таблицы Юникод в виде байтов, но способны представить любой символ.
Ко вторым, к примеру, однобайтовые кодировки cp1862, cp866, koi8 прочие. Такие кодировки - пережиток прошлого, когда в угоду простоте люди жертвовали универсальностью. Однако со временем, когда требоания к ПО и набору поддерживаемых символов изменилось, появилась необходимость как-то между этими кодировками переключаться, преобразовывать тексты, учитывать, что какойто текст без потери данных вовсе нельзя перевести из одной в другую кодировку, потому что каких то букв просто нет в целевой кодировке. Так простота накопилась техническим долгом и обернулась многократно возросшей сложностью учета всех этих нюансов.

В питоне внутри для хранения юникод-строк (а в 3 питоне это основной вид строк) используется не помню какая и utf-кодировок, но она точно может представить любой символ таблицы Юникода. И нам не нужно даже знать что это за кодировка, нам нужно знать какая кодировка на входе и на выходе программы.
У нас на входе и на выходе всегда байты. А именно:
- стандартные потоки ввода, вывода и ошибок, а также другие пайпы - это обычные байтовые потоки, которые работают ка коткрытые файлы, но являются пайпами на уровне системы и могут быть пернеправлены в реальные файлы в файловой сисеме.
- файлы - в файловой системе данные лежат в виде батов, и, в любом случае, нам нужно их как-то интерпретировать, если это текст.

Питон позволяет сделать обёртки вокруг файлового объекта, которые незаметно и прозрачно преобразовывают кодировки так что пользователь может в программе работать с юникодом не задумываясь о кодировках.
Всего лишь нужно правильно натсроить все эти обёртки и никогда не преобразовывать ничего вручную, а также не работать с байтовыми кодировками напрямую.

У вас, очевидно, self.task_name хранится в закодированном виде или некорректно преоразовывается.

Магии не бывает. Ничего там случайным образом с разу на раз не переключается. Если вы видете разные поведения в рахных ситуациях, то просто упускаете какой-то фактор. К примеру в винде запуск из bat-файла, запуск из консоли и запуск кликом мышкой в проводнике могут повлечь за собой запуск процесса с передачей ему пайпов стандартных потоков ввода вывода в разных кодировках. Если в программе мы этого не учитываем, то можем столкнуться с таким поведением как у вас.

Прологируйте значение вашего repr(self.task_name) перед взятием по ключу когда происходит ошибка и когда не происходит.
Вы увидите что меняется.

Почему configparser иногда не может правильно обработать русские символы в названии секции?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт