Как реализовать кроссплатформенную поддержку Unicode в аргументах командной строки в C?

Question

Александр Попов @popov654

Специалист в области веб-технологий

C
Unicode

Как реализовать кроссплатформенную поддержку Unicode в аргументах командной строки в C?

Я пишу CLI для библиотеки шифрования. Сама библиотека работает на уровне байтов, однако я хочу, чтобы у пользователя была возможность передавать исходные строки и ключи, содержащие символы Unicode (кроме латиницы и цифр) через командную строку. Соответственно, мне нужно конвертировать массив wchar_t в массив char перед шифрованием, а после дешифровки выполнять обратную конвертацию.

При этом я знаю, что на Windows и Linux консоль использует разные кодировки (UTF-16/UTF-32). Насколько я знаю, функция wprintf() может об этом позаботиться сама, но мне нужен способ выполнять конвертацию в обе стороны.

Я поменял сигнатуру функции main() на int main(int argc, wchar_t* argv[]) (пытался исправлять на wmain, но тогда ругается ld и сборка падает с ошибкой). Также в её коде поменял функции сравнения и добавил к литералам префикс L.

Для конвертации wchar_t* в char* я пробовал использовать функцию wcstombs, однако почему-то у меня она совершенно не работает (при попытке преобразовать строку, содержащую только латиницу, я получаю null). Что касается обратного преобразования - я вообще не знаю, как его можно сделать.

Подскажите, пожалуйста, где можно об этом почитать.

Вот код, которым я пытаюсь конвертировать (да, я знаю, что требуемый размер нужно получать не так, но по идее, если поставить с запасом, ошибки быть не должно):

input = (char*) malloc(wcslen(argv[1]) * 4 + 1);
wcstombs(input, argv[1], wcslen(argv[1]) * 4);
printf("The converted string is \"%s\"\n", input);

Вопрос задан более двух лет назад
226 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 1

16 комментариев

Александр Попов @popov654 Автор вопроса

wcstombs не занимается выделением памяти,

Эту ошибку я сам уже нашёл, но спасибо.

Там же написано, что набор символов во время выполнения программы -- implementation defined, поэтому нет гарантии, что их можно обработать кросплатформенно.

И как тогда правильно решить задачу?

Т.е. исходные данные в любом формате можно зашифровать, а потом расшифровать обратно. Поэтому имеет смысл отделить преобразование форматов входных данных от шифрования/расшифровки.

Я понимаю. Просто смотрите, мне хочется обеспечить расшифровку текста на другой ОС через консоль. Это хотя бы теоретически возможно? С байтовым режимом всё куда проще, там на выходе файл как последовательность байтов, и всё.

то твой код интерпретирует строку char как строку wchar_t, что добавляет хаоса

Могу ошибаться, но я читал в одном источнике, что на Windows новых версий наоборот аргументы в cmd.exe передаются в Unicode, и именно некий промежуточный C код (я только не понял, нужно ли его писать явно, или это происходит в фоне автоматически) конвертирует эти Unicode строки в строки ANSI. Вот пруф: https://github.com/wxWidgets/wxWidgets/issues/14580

"...command line arguments are internally converted by CRT to ANSI and converted back to Unicode in wxWidgets. The simplest solution to avoid double conversion is to define macro wxIMPLEMENT_WXWIN_MAIN_CONSOLE conditionally"

Ну и напоследок: я реализовал чтение аргументов через функции WinAPI, заключив их в #ifdef. Насколько это индусский код, и что с ним будет на Linux? У меня пока не дошли руки протестировать в виртуальной машине.

Актуальная версия кода здесь

Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

А, и да, в чём отличие преобразования (wchar_t*) в (char*) явным образом и вызова wcstombs? В том, что wcstombs проверяет корректность байтов (т.е. валидность кода) каждого символа? Или есть ещё особенности? Я просто без понятия, что она делает на самом деле.

Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

то твой код интерпретирует строку char как строку wchar_t, что добавляет хаоса

Когда я работал с каждым аргументом как с последовательностью char, то после расшифровки строки с русскими буквами и её вывода на консоль получался мусор. Это так и должно быть, или где-то в моём коде есть баг, который к этому приводит?

Шифрование построено только на операциях XOR, кроме того, перед шифрованием идёт кодирование в Base 64 исходного текста и ключа, перед расшифровкой - кодирование в Base64 ключа, а после расшифровки - декодирование исходного текста из Base64. При этом с латиницей (включая символы вне Base64 набора, например, пробелами, запятыми, восклицательным знаком) код работает корректно, я тестировал. Однако русские буквы после расшифровки выводились как мусор.

В нынешней версии кода они выводятся совершенно корректно. Вопрос в том, что может я где-то усложнил себе жизнь?

Написано более двух лет назад
jcmvbkbc @jcmvbkbc

читал в одном источнике, что на Windows новых версий наоборот аргументы в cmd.exe передаются в Unicode

Александр Попов, "передаются в Unicode" -- это недостаточно конкретно, потому что Unicode -- это грубо говоря идея перенумеровать все возможные символы. Поскольку символов много, у этой идеи есть несколько физических представлений, которые разбиваются на три больших класса. Один -- использовать 16- или 32-битовые коды фиксированной ширины для номера каждого символа (wchar_t). Другой -- представлять номер символа байтовым кодом переменной длины (UTF). Третий -- выбрать "интересное" подмножество символов и закодировать их Unicode-номера одним байтом (кодовые страницы). В *nix давно практикуется второй вариант (UTF), за тем что происходит в windows я не слежу, но подозреваю, что и они в конце концов прийдут к тому же.

я реализовал чтение аргументов через функции WinAPI, заключив их в #ifdef. Насколько это индусский код, и что с ним будет на Linux?

Что наифдефил -- то и будет.

в чём отличие преобразования (wchar_t*) в (char*) явным образом и вызова wcstombs?

В том, что в одном случае нет никакой перекодировки и ты оперируешь напрямую с байтами составляющими wchar_t, а в другом функция выполняет кодирование wchar_t в массив байт согласно настройкам локали (LC_CTYPE).

после расшифровки строки с русскими буквами и её вывода на консоль получался мусор. Это так и должно быть, или где-то в моём коде есть баг, который к этому приводит?

Ты можешь начать с простого варианта: используй "шифрование", которое ничего не меняет, и проверь, в шифровании ли дело, или в чём-то ещё.

Вопрос в том, что может я где-то усложнил себе жизнь?

Моё мнение: ты усложнил себе жизнь тем, что с одной стороны кроме шифрования ты занимаешься какими-то ещё преобразованиями данных, а с другой стороны -- не очень понимаешь, какими именно.
Если твоей целью было шифровать и расшифровывать -- научись делать это с произвольными двоичными данными. Представление строк символов как произвольных двоичных данных -- это отдельный вопрос.

Написано более двух лет назад

Александр Попов @popov654 Автор вопроса

jcmvbkbc, да нет, дело не в шифровании:

int main(int argc, wchar_t* argv[])
{
     for (int i = 1; i < argc; i++) {
        printf("%s ", argv[i]);
    }

    return;
}

Вывод:

C:\Users\Alex\Documents\cpp\Lessons\alphacrypt>acp.exe "test"
test
C:\Users\Alex\Documents\cpp\Lessons\alphacrypt>acp.exe "Привет"
╧ЁштхЄ

Написано более двух лет назад

Александр Попов @popov654 Автор вопроса
jcmvbkbc, прочитал вот это. Данный код
SetConsoleCP(1251); SetConsoleOutputCP(1251);

в целом устраняет проблему вывода русских символов, но мне не нравится привязка к одному языку (локали). Вроде бы, моё нынешнее решение позволяет использовать любую локаль, получается, оно лучше.
Написано более двух лет назад
Александр Попов @popov654 Автор вопроса
jcmvbkbc, кстати, попробовал вывести что-нибудь на греческом через стандартную работу с char*. Получилось что-то реально странное:

C:\Users\Alex\Documents\cpp\Lessons\alphacrypt>acp.exe "δασκάλα" .git LICENSE
Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

Обновил код, сделал без #ifdef. Так должно работать на всех платформах, мне кажется. Во всяком случае, я теперь читаю естественным образом char*, сигнатура у функции main() - правильная, по стандарту, сравнение строк c именами ключей командной строки (там только латиница) теперь не требует widechar функций, инклюдов стало меньше - а главное, я теперь могу зашифровать строку на русском в консоли VS Code, и расшифровать её в cmd.exe - русский текст выводится корректно именно в UTF-8.

Правда, греческий текст после расшифровки (если зашифровать в консоли VS Code) выводится в cmd.exe в виде знаков вопроса (хотя шрифт эти символы поддерживает судя по тому, что я могу их ввести).

Если повторить эксперимент в обратную сторону - то шифруется именно строка ".git", а не то, что реально вводили (после расшифровки в VS Code это становится очевидно).

Но учитывая, что я читал о ряде багов в cmd.exe именно в Windows 10... чёрт с ним, я думаю. Главное, что работает русский язык, и что в других консолях работает всё.

Написано более двух лет назад
jcmvbkbc @jcmvbkbc
да нет, дело не в шифровании:

int main(int argc, wchar_t* argv[]) ... printf("%s ", argv[i]);

Александр Попов, ещё раз, это не то, как выглядит функция main в стандартном C, а %s -- это не тот формат, который можно использовать для вывода строки wchar_t*. Этот код частично работает потому что ты не работаешь с отдельными символами argv, если бы ты стал это делать, ты бы сразу увидел, что что-то сильно не так. Попробуй в этой программе посимвольно напечатать аргументы.
Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

jcmvbkbc, я уже исправил это. Да, я понял, что у меня частично работало именно благодаря вызову GetConsoleArgsW(). Посмотрите плиз новый вариант

Написано более двух лет назад
jcmvbkbc @jcmvbkbc

Александр Попов, этот вариант выглядит существенно лучше на мой взгляд. Но два момента у меня вызывают вопросы. Первый здесь: почему именно эта локаль, а не просто setlocale(LC_ALL, "")? Второй здесь: зачем там wchar_t, учитывая, что на выходе будут только символы из набора с64?

Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

jcmvbkbc, насчёт первого - я попробую, но без этой строчки вроде на винде в консоли работает неправильно в ряде тестов. Насчёт второго - нет, на выходе после расшифровки нужны именно любые символы любых языков. В этом и идея, чтобы не заставлять юзера пользоваться сторонним base64 энкодером и декодером, это очень неудобно.

Написано более двух лет назад
jcmvbkbc @jcmvbkbc

Насчёт второго - нет, на выходе после расшифровки нужны именно любые символы любых языков.

Александр Попов, вопрос в том, зачем им быть wchar_t вместо того чтобы просто быть в текущей кодировке. Ведь ты их сам здесь же конвертируешь, причём считаешь, что текущая кодировка -- всегда en_US.utf8?

Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

jcmvbkbc, ну просто если эту строку убрать, то с русскими буквами возникает шляпа. Причём по-моему она возникает как раз не в cmd, а в консоли VS Code. Как ни странно, именно en_US.utf8 с русским текстом на моей русской винде работает нормально... Не факт правда, что так будет у людей с другой системной локалью.

Написано более двух лет назад
jcmvbkbc @jcmvbkbc

по-моему она возникает как раз не в cmd, а в консоли VS Code.

Александр Попов, не имею опыта использования VS Code, но предположу, что либо есть настройка кодировки для этой консоли, либо setlocale(LC_ALL, "") мог бы помочь именно здесь.

Как ни странно, именно en_US.utf8 с русским текстом на моей русской винде работает нормально...

Это как раз не странно. Для перекодировки только часть utf8 имеет значение, и, поскольку она обозначает кодировку, способную представить весь unicode, она будет работать для любых символов. Проблемы будут у людей использующих кодовые страницы типа сp1251.

Написано более двух лет назад
Александр Попов @popov654 Автор вопроса

jcmvbkbc, "проблемы будут у людей использующих кодовые страницы типа сp1251" - их на порядок меньше, только под них делать было бы совершенно глупо. Но если есть вариант, чтобы работало и у них, и у тех, у кого UTF-8 - я с радостью реализую.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C

+2 ещё

Сложный
Почему зависают прерывания клавиатуры (IRQ1) после первого нажатия при переходе на GOP в самописной ОС (x86_64)?
- 1 подписчик
- 12 июл.
- 199 просмотров
2

ответа
C

+1 ещё

Средний
Как работает выравнивание памяти в С в структурах?
- 1 подписчик
- 07 июл.
- 155 просмотров
2

ответа
C

Средний
Почему при передаче указателя в функцию, функция получает копию?
- 1 подписчик
- 17 июн.
- 178 просмотров
4

ответа
C

Простой
Форк небольшой мат. библиотеки на Си, где искать исполнителей?
- 1 подписчик
- 04 мар.
- 297 просмотров
2

ответа
C

+1 ещё

Простой
Pthread, чистый си, откуда ошибка сегментирования?
- 1 подписчик
- 03 мар.
- 253 просмотра
2

ответа
C++

+2 ещё

Простой
Заголовочные файлы в Си нужны только для интерфейса?
- 3 подписчика
- 26 февр.
- 675 просмотров
5

ответов
C++

+1 ещё

Простой
Как найти причину недетерминизма программы?
- 1 подписчик
- 12 февр.
- 342 просмотра
4

ответа
C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 2 подписчика
- 11 дек. 2025
- 290 просмотров
0

ответов
Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб. 2025
- 222 просмотра
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб. 2025
- 681 просмотр
5

ответов
Показать ещё Загружается…

Нашёл функцию для обратной конвертации: https://learn.microsoft.com/en-us/cpp/c-runtime-li.... Осталось только разобраться, почему у меня null получается. Проект собираю на Windows 10 build 1909

Answer 1 · 2024-01-28 00:36:07

Соответственно, мне нужно конвертировать массив wchar_t в массив char перед шифрованием, а после дешифровки выполнять обратную конвертацию.

Этот вывод не следует из исходных данных. Массив данных любого типа может быть проинтерпретирован как массив байтов, без какой бы то ни было конверсии. Т.е. исходные данные в любом формате можно зашифровать, а потом расшифровать обратно. Поэтому имеет смысл отделить преобразование форматов входных данных от шифрования/расшифровки.

Я поменял сигнатуру функции main() на int main(int argc, wchar_t* argv[]) (пытался исправлять на wmain, но тогда ругается ld и сборка падает с ошибкой).

То, что ты меняешь прототип main, никак не влияет на то, как она будет реально вызвана. В стандарте языка C написано, каким может быть прототип main: int main(void), int main(int argc, char *argv[]) или эквивалентным. Там же написано, что набор символов во время выполнения программы -- implementation defined, поэтому нет гарантии, что их можно обработать кросплатформенно.

Для конвертации wchar_t* в char* я пробовал использовать функцию wcstombs, однако почему-то у меня она совершенно не работает (при попытке преобразовать строку, содержащую только латиницу, я получаю null).

wcstombs не занимается выделением памяти, если ты "получаешь null" -- это происходит в каком-то другом месте. Ну и если ты это делаешь внутри main принимающего wchar_t* argv[], то твой код интерпретирует строку char как строку wchar_t, что добавляет хаоса.

Answer 2 · 2024-01-27 21:06:25

Тебе проще всего посмотреть как эта задача уже решена в других Windows/Linux проектах.
Я думаю что ты тут не первооткрыватель. Уже решали эту задачу миллион раз.

Как реализовать кроссплатформенную поддержку Unicode в аргументах командной строки в C?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт