Почему ascii и utf-8 тексты имеют разную длину?

Question

sddvxd @sddvxd

Почему ascii и utf-8 тексты имеют разную длину?

Добрый день!
Есть бинарный файл в кодировке ansi, я копирую его в файл с кодировкой utf-8, причем первый файл размером 7168 байт, а второй (куда скопировал текст) становится размером 7 736 байт. Одинаковое количество и порядок дали почему-то разный размер. Объясните пожалуйста - почему

Вопрос задан более трёх лет назад
913 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

hint000 @hint000

бинарный файл в кодировке ansi
- нонсенс. Если уж файл бинарный, то к нему неприменимо понятие "кодировка". И уточните, каким способом копируете, пока довольно туманно сформулировано.

Upd. вообще для ответа на ваш вопрос достаточно сделать побайтовое сравнение (есть программки), сразу будет видно отличия. Подозреваю, что дело в CR LF.

Написано более трёх лет назад
sddvxd @sddvxd Автор вопроса

hint000, я же открываю файл текстовым редактором

Написано более трёх лет назад
sddvxd @sddvxd Автор вопроса

hint000, копирую в буфер, оттуда в файл с utf-8

Написано более трёх лет назад
SagePtr @SagePtr

sddvxd, ну так символы с кодом > 127 скорее всего у вас перекодировались и вместо 1 символа стало 2.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Кодировка символов

Простой
Как создать нечитаемые символы?
- 1 подписчик
- 25 мар.
- 213 просмотров
0

ответов
Кодировка символов

Простой
Неверные символы при копировании?
- 2 подписчика
- 21 янв.
- 267 просмотров
0

ответов
Текстовые редакторы

+1 ещё

Средний
Есть ли текстовый редактор с многократным уменьшением текста?
- 1 подписчик
- 11 янв.
- 100 просмотров
1

ответ
JavaScript

+4 ещё

Сложный
Почему в WebSockets History в Burp Suite отображаются кракозябры?
- 1 подписчик
- 21 дек. 2024
- 224 просмотра
2

ответа
C++

+1 ещё

Средний
Как это сделать это задание на c++?
- 1 подписчик
- более года назад
- 254 просмотра
0

ответов
Кодировка символов

+1 ещё

Средний
Слетает кодировка Outlook 2019. Как поправить?
- 1 подписчик
- более года назад
- 1472 просмотра
1

ответ
C#

+1 ещё

Средний
Что делать когда при конвертации из utf8 в string я получаю (string)\0\0\0 и так далее?
- 1 подписчик
- более года назад
- 142 просмотра
1

ответ
Python

+1 ещё

Простой
Как превратить цифры в рисунок?
- 1 подписчик
- более года назад
- 195 просмотров
1

ответ
C++

+1 ещё

Средний
Как сравнить char в с++ на пустоту?
- 1 подписчик
- более года назад
- 264 просмотра
1

ответ
Python

+2 ещё

Простой
Почему хранимая процедура MySQL не принимает кириллицу?
- 3 подписчика
- более года назад
- 164 просмотра
1

ответ
Показать ещё Загружается…

Начальник отдела эксплуатации связи

Ростелеком • Барнаул

от 90 000 до 144 000 ₽

Программист 1С / Разработчик 1С

Devim • Санкт-Петербург

До 255 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

бинарный файл в кодировке ansi
- нонсенс. Если уж файл бинарный, то к нему неприменимо понятие "кодировка". И уточните, каким способом копируете, пока довольно туманно сформулировано.

Upd. вообще для ответа на ваш вопрос достаточно сделать побайтовое сравнение (есть программки), сразу будет видно отличия. Подозреваю, что дело в CR LF.
hint000, я же открываю файл текстовым редактором
hint000, копирую в буфер, оттуда в файл с utf-8
sddvxd, ну так символы с кодом > 127 скорее всего у вас перекодировались и вместо 1 символа стало 2.

Answer 1 · 2019-05-20 14:04:43

SagePtr @SagePtr

Еда - это святое

Бинарный? Перекодируете? Не ждите, что он после этого останется бинарным.

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2019-05-20 14:48:55

В UTF-8 символы соответствующие ASCII кодируются одним октетом, но символы других кодовых страниц - различным количеством октет (от 2 до 4х в настоящее время), например кириллические символы или символы специфичные для европейских языков - 2мя октетами.

В ANSI-кодировках символы всегда кодируются одним октетом, и ANSI-кодировка может содержать не только ASCII-символы.

Почему ascii и utf-8 тексты имеют разную длину?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт