Как перевести кодировку latin-1 в utf-8?

Question

Bogdan Buchko @INDMops

Парень с небольшой историей...

Как перевести кодировку latin-1 в utf-8?

есть папка с очень большим количество файлов txt формата. И у меня била задача найти среди етих файлов определенный текст.(то есть перебрать весь текст в файлах). И я написал такой код, но вот у меня возникла проблема, в тексте есть не только кириллица, но и латиница и коды в шестнадцатеричной системе.
Пример:

0x005B85BC = Wheeler, Rawson & Co.

0x00668D66 = Колтер

0x006A581E = Самогонщикам на заметку:~n~соберите оставшиеся после костра угли и процедите через них полученный самогон, чтобы очистить продукт от примесей.

0x007065EC = Брошюра с рецептом особого чудодейственного зелья.

0x0071467D = БЫВШИЙ СТРЕЛОК, СТАВШИЙ МАРШАЛОМ.~n~~n~ПОСЛЕДНИЙ РАЗ ЗАМЕЧЕН В АННЕСБЕРГЕ.

0x00718925 = Выбрать подтяжки.

0x00732098 = Шляпа «Феркрофт»

0x0073F497 = Улучшить повозку Штрауса

0x00740D9A = Облачите ваших детей в приличную одежду и обувь от Wheeler, Rawson & Co.

Вот сам код поиска(я не программист, потому не судите сильно код):

import os

text = input('Введите текст: ')

strings = []

for root, dirs, files in os.walk('txt'):
    for filename in files:
        if filename.endswith('.txt'):
            path = f'{root}\{filename}'
            with open(path, 'r', encoding='utf-8') as f:
                for string in f:
                    if text in string:
                        line = dict()
                        line['file'] = filename
                        line['string'] = string
                        strings.append(line)
                        
if strings == []:
    print('Текст не был найден среди всех файлов!')
else:
    for i in strings:
        print(f'Файл: {i["file"]}, з текстом:\n{i["string"]}')

Код ошибки:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 16: invalid continuation byte

Я также менял тик кодировки на latin-1, тогда код запускался, но оно не искало текст.
Я так понимаю когда оно проверяет каждое слово в тексте и попадает например на 0x0071467D и случается та ошибка, потому что ето шестнадцатеричная система, а не двоичная. То есть текст нужно переводить еще в бинар?

Вопрос задан более трёх лет назад
681 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

Telcontar @Lord_of_Rings Куратор тега Python

Отметьте решением

Написано более трёх лет назад
mayton2019 @mayton2019

Скорее всего автор ошибается в техническом задании. Latin-1 не содержит кириллицу.
Кириллица может быть в cp866, win-1251 или каких-то koi8 кодировках если речь
идет об однобайтном источнике.

Написано более трёх лет назад
o5a @o5a
Bogdan Buchko,
Этим Вы не решили проблему, о которой думали в исходном вопросе.
Проблема у Вас не в том, что в тексте
коды в шестнадцатеричной системе
, они вообще никак на это не влияли, это просто текст.
Изначально ошибка у вас возникала потому, что вы свои txt файлы, сохраненные в кодировке "windows-1251" открывали в кодировке 'utf-8"
with open(path, 'r', encoding='utf-8')
Отсюда и такая ошибка.
Затем в своем решении я так понимаю убрали явное проставление кодировки, изменив на это:
with open(path, 'r')
В таком случае файлы просто начали открываться по умолчанию в кодировке "win-1251", которая для них и была правильной, поэтому все заработало верно.
Последующие шаги

str_encode = string.encode(encoding = 'UTF-8') str_decode = str_encode.decode()

уже не играли роли: вы просто закодировали строку в utf-8 и сразу же ее раскодировали в utf-8.
Вы могли их полностью пропустить, оставив только:

... with open(path, 'r') as f: for string in f: if text in string:
Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 160 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 104 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 114 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 379 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 244 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 690 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 559 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 312 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 585 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 231 просмотр
2

ответа
Показать ещё Загружается…

Один Bash скрипт с использованием for, утилит recode, grep и готово.
0x005B85BC при переводе на UTF-8 не подлежит изменению, поскольку находится в диапазоне Latin-1.

Answer 1 · 2022-12-20 14:53:12

Все оказалось очень просто. Не нужно било переводить весь файл в кодировку, а только ту строку которую ми перебираем:

...
for string in f:
    str_encode = string.encode(encoding = 'UTF-8')
    
    str_decode = str_encode.decode()
                    
    if text in str_decode:
        line = dict()
        ...

Как перевести кодировку latin-1 в utf-8?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт