Почему char — 1 байт, а символьный литерал ('A') — 4?

Question

70-C9-4E-54-03-2F @Xproz

Пытаюсь постигнуть компьютерные сети

C

Почему char — 1 байт, а символьный литерал ('A') — 4?

sizeof(char) = 1 байт
sizeof('A') = 4 байт.

Я понял, что то, что мы называем символами, на самом деле является числовым кодом, а потому символьным литералам выделяется столько же памяти, сколько и типу int (4 байта).
Но я не совсем понял, как в однобайтный char вмещается четырехбайтный символ?
И когда я объявляю char test = 'A'; то сколько в компьютере выделилось памяти: 1 байт или 4?

(Если попробовать sizeof(test), то выйдет, что все таки 1. Но ведь 'A' - это 4 байта?)

Вопрос задан более трёх лет назад
1081 просмотр

1 комментарий

Подписаться 3 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Компьютерная академия «TOP»

Учебная программа “Разработка программного обеспечения”

30 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

70-C9-4E-54-03-2F @Xproz Автор вопроса

char test = 'Z';
sizeof(test) = 1
sizeof('Z') = 4

Вопрос, как в однойбайтовый char поместился четырехбайтовых 'Z' и сколько в итоге выделилось памяти после char test = 'Z', все еще остается открытым

Написано более трёх лет назад
galaxy @galaxy

David Park, ок, извините, тут C, а в нем, как ни странно, char литералы имеют тип int. Почему - а хрен его знает, так сложилось со времен К&Р (почитайте, например, тут, если хотите).
В плюсах такие литералы имеют тип char и размер 1 байт.

Вопрос, как в однойбайтовый char поместился четырехбайтовых 'Z' и сколько в итоге выделилось памяти после char test = 'Z',
сконвертится до байта. Ровно так же, как если бы вы написали char c = 1;
1 - имеет тип int, но это же не вызывает вопросов у вас?

Написано более трёх лет назад

2 комментария

70-C9-4E-54-03-2F @Xproz Автор вопроса

Не знаю, принципиально ли это здесь, но я писал на языке Си.
В книге (по Си) поясняется, что символьный литерал хранится в виде числового кода, поэтому для него выделяется 4 байта (столько же выделяется и для int).
Дальше поясняется, что под char - выделяется 1 байт.
Но как именно в char залез символ, под который выделяется 4 байта, я не понял.
sizeof('Y') = 4 байт
char y = 'Y'
sizeof(y) = 1 байт

Написано более трёх лет назад

GavriKos @GavriKos

David Park, Ааа, не заметил:

#include <stdio.h>

#include <stdio.h>
#include <stddef.h>
#include <stdint.h>

#define typename(x) _Generic((x),        /* Get the name of a type */             \
                                                                                  \
        _Bool: "_Bool",                  unsigned char: "unsigned char",          \
         char: "char",                     signed char: "signed char",            \
    short int: "short int",         unsigned short int: "unsigned short int",     \
          int: "int",                     unsigned int: "unsigned int",           \
     long int: "long int",           unsigned long int: "unsigned long int",      \
long long int: "long long int", unsigned long long int: "unsigned long long int", \
        float: "float",                         double: "double",                 \
  long double: "long double",                   char *: "pointer to char",        \
       void *: "pointer to void",                int *: "pointer to int",         \
      default: "other")

#define fmt "%20s is '%s'\n"

int main()
{
    printf("%d \n", sizeof('A'));
    printf("%s \n", typename('A'));

    return 0;
}

'A' - это int.
Видать для поддержки всякого не влазящего в чар

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб.
- 151 просмотр
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 430 просмотров
5

ответов
C

Средний
Почему мой лексер выдает неизвестные токены?
- 1 подписчик
- 25 окт.
- 128 просмотров
1

ответ
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 147 просмотров
0

ответов
Linux

+3 ещё

Средний
Как портировать U-boot на ASR1803?
- 5 подписчиков
- 06 окт.
- 271 просмотр
0

ответов
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 330 просмотров
3

ответа
Windows

+2 ещё

Простой
Почему запуск процесса через CreateProcess() может очень медленно выполняться?
- 1 подписчик
- 18 сент.
- 238 просмотров
1

ответ
C

Простой
Почему на запускается Valgrind?
- 1 подписчик
- 13 сент.
- 107 просмотров
1

ответ
C

+1 ещё

Простой
Как исправить ошибку?
- 1 подписчик
- 05 авг.
- 206 просмотров
2

ответа
C

+1 ещё

Простой
Как работает объявление переменных разных типов данных?
- 1 подписчик
- 30 июл.
- 140 просмотров
3

ответа
Показать ещё Загружается…

Программист C/C++ для Embedded-систем (Middle)

Алабуга • Екатеринбург

До 370 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

C++ разработчик (Поиск)

Сбер • Москва

от 250 000 до 400 000 ₽

David Park , потому что типом 'A' является int.

Answer 1 · 2021-09-21 17:52:29

А теперь скажу правильный ответ.
В Си символьный литерал имеет тип int и потому его sizeof 4 байта.
В Си++ у него тип char и 1 байт. Потому те, кто создавал CPP-файл, проблемы не видели. Очевидно, связано с перегрузкой функций: как-то не хочется, чтобы в foo('A') вызывалась версия для int.

#include <stdio.h>

int main()
{
    int sz = sizeof('A');  // латинское
    printf("sz = %d\n", sz);
    return 0;
}

Си: 4
Си++: 1

При написании char test='A' на стеке будет 1 байт (+выравнивание). Здесь Си, грубо говоря, проводит преобразование типа — прямо при компиляции. Если написать char test=L'Й', сообщит, что преобразование при компиляции ushort→char обрежет результат с 1049 до 25.

Answer 2 · 2021-09-21 14:14:02

Я понял, что то, что мы называем символами, на самом деле является числовым кодом

Все в компьютере хранится в виде бит, сгруппированных по байтам.
Символ - абстракция для упрощения программирования, и есть различные таблицы кодировки для того, чтобы преобразовывать байты в символы при выводе на экран.
Количество байт, нужных на символ зависит собственно от кодировки.
В старых кодировках один байт означал один символ, в современных UTF, количество байт может быть разное (до 6 байт на символ в виде иероглифа).

а потому символьным литералам выделяется столько же памяти, сколько и типу int (4 байта).

Юзай typeid чтобы уточнить тип данных

Но я не совсем понял, как в однобайтный char вмещается четырехбайтный символ?

никак, это не char.
в С по дефолту char это однобайтный символ в ascII

И когда я объявляю char test = 'A'; то сколько в компьютере выделилось памяти: 1 байт или 4?

Ты же сам указываешь тип при объявлении. Надо было привести код целиком.

(Если попробовать sizeof(test), то выйдет, что все таки 1. Но ведь 'A' - это 4 байта?)
'A' это значение, а не тип. Может быть это int?

Answer 3 · 2021-09-21 11:24:35

А нечего русские буквы в char запихивать

In (1), if c-char is not a numeric character sequence and is not representable as a single byte in the execution character set, the character literal is conditionally supported, has type int and implementation-defined value.

https://en.cppreference.com/w/cpp/language/charact...

Answer 4 · 2021-09-21 11:37:55

#include <iostream>  
#include <typeinfo>  //for 'typeid' to work  

using namespace std;

int main () {  

    std::cout << typeid('A').name() << std::endl;  
     std::cout << sizeof('A') << std::endl;  
 }

Ответ:
c
1

Как у вас 4 байта получилось?

Answer 5 · 2021-09-21 12:47:29

profesor08 @profesor08

ascii

Ответ написан более трёх лет назад

Комментировать

Почему char — 1 байт, а символьный литерал ('A') — 4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт