Почему в .txt файле на Linux появляется «лишний» байт?

Question

Borankin @Borankin

Почему в .txt файле на Linux появляется «лишний» байт?

Создаю на рабочем столе Linux (Ubuntu 22) пустой текстовый файл 1.txt.
Проверяю в свойствах его размер - 0 байт.
Записываю в файл ровно один любой символ латинского алфавита, сохраняю. Размер файла становится 2 байта.
Почему собственно 2 байта, а не 1 байт?

Символы латинского алфавита кодируются же 8 битами (1 байт).
Если дописать ещё один любой латинский символ или цифру, то размер становится 3 байта.
То есть появление в файле первого символа даёт файлу 2 байта, каждый последующий символ как положено - по одному байту. Если в файле слово из трех букв, то его размер 4 байта и т.д.
Обращаю внимание, что никаких пробелов и переносов строк нет, только латинские буквы (цифры). Регистр букв — т.е. большие прописные или маленькие строчные на результат не влияют. В Debian то же самое. На других дистрибутивах не проверял.

Почему обратил внимание и заинтересовался? Просто накануне вникал в кодирование символов, тестировал немного на Windows 10. Там всё ясно и понятно. Пустой текстовый файл - 0 байт. Каждая латинская буква даёт размеру файла 1 байт. Т.е. всё работает логично.
Итак, откуда лишний байт на Linux и для чего он?

Вопрос задан более двух лет назад
701 просмотр

5 комментариев

Подписаться 1 Простой 5 комментариев

Wataru @wataru

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.

Написано более двух лет назад
Borankin @Borankin Автор вопроса

Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.

Написано более двух лет назад
Wataru @wataru

Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.

Написано более двух лет назад
Viktor T2 @Viktor_T2

UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...

Написано более двух лет назад
Viktor T2 @Viktor_T2

POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Linux для робототехников

3 месяца

Далее
Stepik

Основы Linux

2 недели

Далее
Учебный центр IBS

AL-1801 ОС Astra Linux Special Edition 1.8 для пользователей

1 неделя

Далее

Решения вопроса 2

Комментировать

5 комментариев

Rsa97 @Rsa97

Не стоит говорить сразу о всех редакторах.
Например, mcedit ничего не добавляет сам и спокойно создаёт файл из одного символа без переноса строки.
echo тоже можно заставить не добавлять конец строки, для этого есть ключ -n.
touch вообще создаёт пустой файл, а символ конца строки дописывает ваш редактор.

Написано более двух лет назад
Borankin @Borankin Автор вопроса

Rsa97, спасибо!

Написано более двух лет назад
My1Name @My1Name
Rsa97,
В Linux при создании текстового файла автоматически неявно в конец файла добавляется символ

Это наверно не от ОС зависит... В Windows при записи в файл добавляется 2 байта(?). А позиция курсора при вычислении этих 2-х байт выглядит так:
index+=lineStr.getBytes("UTF-8").length+2; position=((index-1)-(lineStr.length()+1));
Написано более двух лет назад
Rsa97 @Rsa97

My1Name, В Windows конец строки кодируется двумя символами, \r\n или \x0D\x0A.

Написано более двух лет назад
My1Name @My1Name

Rsa97, тогда почему смещение курсора выглядит как минус -1 или 0? position=((index-1)-(lineStr.length()+1)) Это рабочий код...

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
Как отключить вставку в Pixso на линукс?
- 1 подписчик
- 13 часов назад
- 74 просмотра
1

ответ
Windows

+1 ещё

Простой
Планшет на Windows -> планшет на РЕД ОС реально ли?
- 3 подписчика
- вчера
- 467 просмотров
3

ответа
Windows

+1 ещё

Средний
Sysprep как пропустить окно приветствия?
- 2 подписчика
- вчера
- 120 просмотров
1

ответ
Windows

+2 ещё

Средний
На 3 секунды греется видеокарта?
- 2 подписчика
- вчера
- 254 просмотра
2

ответа
Linux

Простой
Как запустить Linux с iGPU?
- 1 подписчик
- вчера
- 141 просмотр
2

ответа
Windows

+1 ещё

Простой
Сбивается время при переключении ОС?
- 3 подписчика
- 20 дек.
- 291 просмотр
4

ответа
Windows

+1 ещё

Простой
Как переименовать ПК в Windows 10?
- 3 подписчика
- 20 дек.
- 205 просмотров
1

ответ
Windows

+2 ещё

Простой
Гаснет монитор A27Qi на несколько секунд, в чем может быть проблема?
- 1 подписчик
- 18 дек.
- 307 просмотров
2

ответа
Linux

+2 ещё

Простой
Эмулятор android для linux?
- 1 подписчик
- 18 дек.
- 1031 просмотр
4

ответа
Windows

Средний
Windows 10 LTSC — как повторяющийся ip-адрес сделать основным?
- 4 подписчика
- 15 дек.
- 1529 просмотров
0

ответов
Показать ещё Загружается…

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Как записываете этот байт в файл? Возможно, там записывается перевод строки, хоть вы его и не хотели записывать.
Wataru, просто вписываю букву с клавиатуры и сохраняю изменения. Условия сравнения с Windows абсолютно аналогичные.
Borankin, Ага, т.е. вы в каком-то редакторе вводите символ и сохраняете файл. Что за редактор? Даже если вы используете одну и ту же программу (например, notepad++), вот вообще не факт, что она ведет себя одинаково в разных системах.

Раз уж вы в линуксе, запустите команду `xxd 1.txt` в консоли и приведите ее вывод. Оно выведет файл в 16-ричном формате - там сразу станет видно, что это за 2 байта.
UTF BOM
https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%80%D...
POSIX стандарт требует \n в конце строки
https://stackoverflow-com.translate.goog/questions...

Answer 1 · 2023-11-09 00:24:36

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Откройте файл в шестнадцатеричном редакторе/вьюере, например wxHexEditor или GHex и посмотрите, что в нём лежит.

Ответ написан более двух лет назад

Комментировать

Answer 2 · 2023-11-09 07:30:11

Спасибо всем за ответы и комментарии.
Подведу здесь итог и поясню, что удалось выяснить.

Кратко.
В Linux при создании текстового файла автоматически неявно в конец файла добавляется символ перевода строки (Line Feed - LF, \n). Визуально в графическом текстовом редакторе его никак не видно.

Развёрнуто.
1. Пробовал создавать файл разными способами.
- С помощью консольных текстовых редакторов vim и nano.
- В терминале с использованием перенаправления потока вывода (echo a > 1.txt).
- А также (touch 1.txt), совместно с графическим текстовым редактором.
Результат везде одинаковый (из комментария Rsa97 стало понятно, что результат не везде одинаковый - см. коммент)

2. Ниже приведу примеры открытия файлов с разными символами с помощью утилиты xxd.
Расшифровка в формате (буква = Hex = Bin = symbols)
s = 730a = 01110011 00001010 = s\n
W = 570a = 01010111 00001010 = W\n
a = 610a = 01100001 00001010 = a\n
aa = 6161 0a = 01100001 01100001 00001010 = aa\n

a(+Enter) = 610a 0a = 01100001 00001010 00001010 = a\n\n (тот перевод строки (первый) который задан явно, с помощью Enter, его видно в графическом редакторе, а второй не видно)

a(+Enter)a = 610a 610a = 01100001 00001010 01100001 00001010 = a\na\n

3. Определение кодировки файлов с помощью ( file -i 1.txt) выдаёт у меня такой результат:
1.txt: text/plain; charset=us-ascii

В общем, разобрался что к чему. Ещё раз благодарю за ответы и комментарии.
Между делом, наконец-то понял, что такое UTF BOM )))

Answer 3 · 2023-11-09 17:54:07

Данил Тунев @lada-guy

Скорей всего это связано с файловой системой под линукс.

Ответ написан более двух лет назад

Комментировать

Почему в .txt файле на Linux появляется «лишний» байт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт