Почему в .txt файле на Linux появляется «лишний» байт?

Question

Borankin @Borankin

Почему в .txt файле на Linux появляется «лишний» байт?

Создаю на рабочем столе Linux (Ubuntu 22) пустой текстовый файл 1.txt.
Проверяю в свойствах его размер - 0 байт.
Записываю в файл ровно один любой символ латинского алфавита, сохраняю. Размер файла становится 2 байта.
Почему собственно 2 байта, а не 1 байт?

Символы латинского алфавита кодируются же 8 битами (1 байт).
Если дописать ещё один любой латинский символ или цифру, то размер становится 3 байта.
То есть появление в файле первого символа даёт файлу 2 байта, каждый последующий символ как положено - по одному байту. Если в файле слово из трех букв, то его размер 4 байта и т.д.
Обращаю внимание, что никаких пробелов и переносов строк нет, только латинские буквы (цифры). Регистр букв — т.е. большие прописные или маленькие строчные на результат не влияют. В Debian то же самое. На других дистрибутивах не проверял.

Почему обратил внимание и заинтересовался? Просто накануне вникал в кодирование символов, тестировал немного на Windows 10. Там всё ясно и понятно. Пустой текстовый файл - 0 байт. Каждая латинская буква даёт размеру файла 1 байт. Т.е. всё работает логично.
Итак, откуда лишний байт на Linux и для чего он?

Вопрос задан более года назад
667 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Wataru @wataru

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.

Написано более года назад
Borankin @Borankin Автор вопроса

Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.

Написано более года назад
Wataru @wataru

Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.

Написано более года назад
Viktor T2 @Viktor_T2

UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...

Написано более года назад
Viktor T2 @Viktor_T2

POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Написано более года назад

Решения вопроса 2

Комментировать

5 комментариев

Rsa97 @Rsa97

Не стоит говорить сразу о всех редакторах.
Например, mcedit ничего не добавляет сам и спокойно создаёт файл из одного символа без переноса строки.
echo тоже можно заставить не добавлять конец строки, для этого есть ключ -n.
touch вообще создаёт пустой файл, а символ конца строки дописывает ваш редактор.

Написано более года назад
Borankin @Borankin Автор вопроса

Rsa97, спасибо!

Написано более года назад
My1Name @My1Name
Rsa97,
В Linux при создании текстового файла автоматически неявно в конец файла добавляется символ

Это наверно не от ОС зависит... В Windows при записи в файл добавляется 2 байта(?). А позиция курсора при вычислении этих 2-х байт выглядит так:
index+=lineStr.getBytes("UTF-8").length+2; position=((index-1)-(lineStr.length()+1));
Написано более года назад
Rsa97 @Rsa97

My1Name, В Windows конец строки кодируется двумя символами, \r\n или \x0D\x0A.

Написано более года назад
My1Name @My1Name

Rsa97, тогда почему смещение курсора выглядит как минус -1 или 0? position=((index-1)-(lineStr.length()+1)) Это рабочий код...

Написано более года назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+1 ещё

Простой
В чём под Windows писать на Rust'е десктопные приложения?
- 1 подписчик
- 16 часов назад
- 296 просмотров
2

ответа
Linux

+1 ещё

Простой
OOM killer убивает cron. Как быть?
- 2 подписчика
- вчера
- 1333 просмотра
3

ответа
Windows

+1 ещё

Простой
Перестал открывается текстовый документ как снова его открыть?
- 1 подписчик
- вчера
- 237 просмотров
3

ответа
Linux

Простой
Существуют ли дистрибутивы linux умеющие работать в домене из коробки?
- 1 подписчик
- вчера
- 1174 просмотра
1

ответ
Linux

Простой
Как в линуксе узнать сколько «system cpu time» съел процесс?
- 1 подписчик
- вчера
- 135 просмотров
1

ответ
Windows

Простой
Как установить две Windows на разные тома, что бы они не конфликтовали?
- 1 подписчик
- вчера
- 208 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему подвисает система после установки нового диска?
- 1 подписчик
- вчера
- 186 просмотров
4

ответа
Windows

+1 ещё

Простой
Как спасти SSD от гнобления со стороны ПК?
- 1 подписчик
- 06 мая
- 1491 просмотр
4

ответа
Программирование

+1 ещё

Простой
Как симулировать комбинаторные сочетания (C(k, n)) за O(1) памяти?
- 1 подписчик
- 06 мая
- 222 просмотра
2

ответа
Windows

Простой
Как удалить бесконечно рекурсивную папку?
- 1 подписчик
- 06 мая
- 260 просмотров
3

ответа
Показать ещё Загружается…

Системный администратор Linux

Palex • Томск

от 70 000 до 80 000 ₽

Системный администратор Linux / System administrator

Wanted. • Санкт-Петербург

До 130 000 ₽

DevOps engineer

Wanted. • Москва

До 350 000 ₽

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.
Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.
Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.
UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...
POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Answer 1 · 2023-11-09 00:24:36

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Откройте файл в шестнадцатеричном редакторе/вьюере, например wxHexEditor или GHex и посмотрите, что в нём лежит.

Ответ написан более года назад

Комментировать

Answer 2 · 2023-11-09 07:30:11

Спасибо всем за ответы и комментарии.
Подведу здесь итог и поясню, что удалось выяснить.

Кратко.
В Linux при создании текстового файла автоматически неявно в конец файла добавляется символ перевода строки (Line Feed - LF, \n). Визуально в графическом текстовом редакторе его никак не видно.

Развёрнуто.
1. Пробовал создавать файл разными способами.
- С помощью консольных текстовых редакторов vim и nano.
- В терминале с использованием перенаправления потока вывода (echo a > 1.txt).
- А также (touch 1.txt), совместно с графическим текстовым редактором.
Результат везде одинаковый (из комментария Rsa97 стало понятно, что результат не везде одинаковый - см. коммент)

2. Ниже приведу примеры открытия файлов с разными символами с помощью утилиты xxd.
Расшифровка в формате (буква = Hex = Bin = symbols)
s = 730a = 01110011 00001010 = s\n
W = 570a = 01010111 00001010 = W\n
a = 610a = 01100001 00001010 = a\n
aa = 6161 0a = 01100001 01100001 00001010 = aa\n

a(+Enter) = 610a 0a = 01100001 00001010 00001010 = a\n\n (тот перевод строки (первый) который задан явно, с помощью Enter, его видно в графическом редакторе, а второй не видно)

a(+Enter)a = 610a 610a = 01100001 00001010 01100001 00001010 = a\na\n

3. Определение кодировки файлов с помощью ( file -i 1.txt) выдаёт у меня такой результат:
1.txt: text/plain; charset=us-ascii

В общем, разобрался что к чему. Ещё раз благодарю за ответы и комментарии.
Между делом, наконец-то понял, что такое UTF BOM )))

Answer 3 · 2023-11-09 17:54:07

Данил Тунев @lada-guy

Скорей всего это связано с файловой системой под линукс.

Ответ написан более года назад

Комментировать

Почему в .txt файле на Linux появляется «лишний» байт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт