Как правильно перекодировать текстовый файл utf-8 в Windows-1251?

Question

toarugakusei @toarugakusei

Python

Как правильно перекодировать текстовый файл utf-8 в Windows-1251?

Доброго времени суток
Мне нужно перекодировать этот файл
в Windows-1251
Пытался это сделать с помощью встроенный функции sublime но получал ошибку

После нашел код на python для перекодировки

# -*- coding: utf-8 -*-

# UTF8 to cp1251 and ShiftJIS recoder
# by Chtobi and Nazon, 2016

import codecs
import argparse
from os import path

JAPANESE_CODEPAGE = 'shift_jis'

UTF_CODEPAGE = 'utf-8'
RUS_CODEPAGE = 'cp1251'


def nonrus_handler(e):

    if e.object[e.start:e.end] == '～':  # UTF-8: 0xEFBD9E　->　SHIFT-JIS: 0x8160
        japstr_byte = b'\x81\x60'

    elif e.object[e.start:e.end] == '－':  # UTF-8: 0xEFBC8D　->　SHIFT-JIS: 0x817C
        japstr_byte = b'\x81\x7c'

    else:
        japstr_byte = (e.object[e.start:e.end]).encode(JAPANESE_CODEPAGE)

    return japstr_byte, e.end


if __name__ == '__main__':

    arg_parser = argparse.ArgumentParser(prog="Recode to cp1251 and ShiftJIS",
                                         description="Program to encode UTF8 text file to "
                                         "cp1251 for all cyrillic symbols and ShiftJIS for others. "
                                         "Output file will be inputfilename.s",
                                         usage="recode_to_cp1251_shiftjis.py file_name")
    arg_parser.add_argument('file_name', nargs=1, type=argparse.FileType(mode='r', bufsize=-1),
                            help="Input text file name. Only files coded in UTF8 are allowed.\n")

    codecs.register_error('nonrus_handler', nonrus_handler)

    input_name = arg_parser.parse_args().file_name[0].name

    output_name = path.splitext(input_name)[0] + ".s"

    with open(input_name, 'rt', encoding = UTF_CODEPAGE) as input_file:
        with open(output_name, 'wb') as output_file:
            if input_name.find(u'\xa0') >= 0:
                input_name = input_name.replace(u'\xa0', u' ') 
            elif input_name.find(u'\ufeff') >= 0:
                input_name = input_name.replace(u'\ufeff', u'')   
            for line in input_file:
                for char1 in line:
                    bytes_out = bytes(line, UTF_CODEPAGE)

                    output_file.write(char1.encode(RUS_CODEPAGE, "nonrus_handler"))
                    
        print("Done.")

Он перекодировал файл правда все русские символы превратились в непонятно что

Âðåìÿ òÿíåòñÿ áåñêîíå÷íî äîëãî.@
` Íî â ðåàëüíîì ìèðå íå ðàçäàëîñü è òûñÿ÷íîãî òèêàíüÿ ÷àñîâ.@
` Àðêâåéä ïîäíèìàåò ãîëîâó, è ñìîòðèò íà ìåíÿ òàê, ñëîâíî âèäèò ñîí.\


` – Øèêè, òû âñ¸ íå óõîäèë äîìîé.@ È ÿ ïðèøëà ñþäà, ïîòîìó ÷òî íå ìîãëà îñòàâèòü òåáÿ îäíîãî...@ Õîòü ÿ è ñîáèðàëàñü âîçâðàùàòüñÿ ê ñåáå.@
` Îíà íåìíîãî çàïèíàåòñÿ, íî ãîâîðèò â ñâîåé îáû÷íîé æèçíåðàäîñòíîé ìàíåðå.\

` – Êîíå÷íî ÿ íå óõîäèë.@ Ðàçâå ÿ íå ãîâîðèë ÷òî áóäó äåðæàòü ñâî¸ îáåùàíèå?@ ß âñ¸ åù¸ íèêàê íå ïîìîã òåáå ñåãîäíÿ.@
` – Õâàòèò óæå...@ Òåáå áîëüøå íå íóæíî ýòîãî äåëàòü.@
` – Õâàòèò?.. ×åãî õâàòèò, Àðêâåéä?!..\

` – Ðàçâå íå ÿñíî?@ Ïðîñòî òû ÷åëîâåê, Øèêè, à ÿ âàìïèð.@
` Ó ìåíÿ íå áûëî ïðàâà ïðîñèòü òåáÿ î ïîìîùè.@ ß íå ïîíèìàëà ýòîãî ðàíüøå, è ÿ áû ðàçðóøèëà òåáÿ, åñëè áû çàøëà íåìíîãî äàëüøå.@
` Ïîýòîìó...@
` «...äîñòàòî÷íî», øåï÷åò îíà.\

Есть ли способ вернуть русским смволам их изнчалный вид ? или же есть метод который не будить шакалить символы ?
Зарание Спасибо за ответ

Вопрос задан более трёх лет назад
1981 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

4 комментария

toarugakusei @toarugakusei Автор вопроса

Написано более трёх лет назад
o5a @o5a

toarugakusei, в Notepad++ кодировку можно выбрать в меню Encoding.
А в Sublime для этого же есть меню File - Reopen with encoding (или аналогичное меню, если кликнуть по кодировке справа внизу окна статуса, если она выставлена в настройках).

А зачем вообще потребовалось конвертировать файл в win1251? При конвертации японские символы потеряются. Чем помешала изначальная utf8?

Написано более трёх лет назад
toarugakusei @toarugakusei Автор вопроса

o5a, Я пробовал и все равно тоже самое

а на счет того зачем у меня есть parser и когда ему пытаешься скормить этот файл в кодировке utf-8 он не может прочитать файл все время находить неизвестные символы и да можно попробовать взять не большой кусок файла и тогда он корректно отработает но все русские символы будут в таком виде Øèêè, òû âñ¸ íå óõîäèë äîìî
Я также попробовал открыть этот кусок файла с помощью win1251 и тогда он отработал корректно и не шакалил ни русские ни японские символы все было замечательно но когда пытался сделать тоже самое со всем файлом он выдавал ошибку
UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 248964: character maps to
И вот я подумал что нужно перекодировать файл в windows-1251

Написано более трёх лет назад
o5a @o5a

toarugakusei, на скриншоте файл кодировки utf8, открытый в кодировке win1251. Я так понимаю, это оригинальный файл, конечно, он в win1251 и не будет нормально показывать. В win1251 имеет смысл открывать уже перекодированный тем скриптом, подменяющим японские символы.

виде Øèêè, òû âñ¸ íå óõîäèë äîìî

это когда файл кодировки 1251 открыт в кодировке 1252, нужно просто сменить кодировку просмотрщика файла на нужную 1251 (если Sublime, то как раз Reopen with encoding..)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 101 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 168 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 215 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 299 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 166 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 278 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

И как вы себе это представляете, если в файле содержатся символы, не представимые в Windows-1251? В таком случае эти символы придётся либо вырезать, либо заменять на знаки вопроса, либо на специальную последовательность символов из какого-то другого формата (например, HTML-сущности), или оставить как есть, но выглядеть эти символы будут как мусор из нескольких других символов.

Answer 1 · 2021-04-25 23:34:47

Время тянется бесконечно долго

Это 1251 отображенный как 1252. Т.е. ваша программа, читающая и отображающая текст, полагает, что это 1252 кодировка. Наверно, ей надо где-то подсказать в настройках, что она ошибается.

Answer 2 · 2021-04-26 10:04:51

Михаил Лялин @mr_jok

Notepad++ и нет проблем

Ответ написан более трёх лет назад

4 комментария

Как правильно перекодировать текстовый файл utf-8 в Windows-1251?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт