Почему в .txt файле на Linux появляется «лишний» байт?

Question

Borankin @Borankin

Почему в .txt файле на Linux появляется «лишний» байт?

Создаю на рабочем столе Linux (Ubuntu 22) пустой текстовый файл 1.txt.
Проверяю в свойствах его размер - 0 байт.
Записываю в файл ровно один любой символ латинского алфавита, сохраняю. Размер файла становится 2 байта.
Почему собственно 2 байта, а не 1 байт?

Символы латинского алфавита кодируются же 8 битами (1 байт).
Если дописать ещё один любой латинский символ или цифру, то размер становится 3 байта.
То есть появление в файле первого символа даёт файлу 2 байта, каждый последующий символ как положено - по одному байту. Если в файле слово из трех букв, то его размер 4 байта и т.д.
Обращаю внимание, что никаких пробелов и переносов строк нет, только латинские буквы (цифры). Регистр букв — т.е. большие прописные или маленькие строчные на результат не влияют. В Debian то же самое. На других дистрибутивах не проверял.

Почему обратил внимание и заинтересовался? Просто накануне вникал в кодирование символов, тестировал немного на Windows 10. Там всё ясно и понятно. Пустой текстовый файл - 0 байт. Каждая латинская буква даёт размеру файла 1 байт. Т.е. всё работает логично.
Итак, откуда лишний байт на Linux и для чего он?

Вопрос задан более года назад
660 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Wataru @wataru

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.

Написано более года назад
Borankin @Borankin Автор вопроса

Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.

Написано более года назад
Wataru @wataru

Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.

Написано более года назад
Viktor T2 @Viktor_T2

UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...

Написано более года назад
Viktor T2 @Viktor_T2

POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Написано более года назад

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.
Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.
Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.
UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...
POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Answer 1 · 2023-11-09 00:24:36

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Откройте файл в шестнадцатеричном редакторе/вьюере, например wxHexEditor или GHex и посмотрите, что в нём лежит.

Ответ написан более года назад

Комментировать

Почему в .txt файле на Linux появляется «лишний» байт?

Войдите на сайт