Как корректно обрезать строку тип string в utf8 на с++?

Question

DiIce @DiIce

C++

Как корректно обрезать строку тип string в utf8 на с++?

Есть строка тип string, в ней строка в кодировке utf8 (русские, английские буквы, цифры)
Как ее корректно обрезать или частично скопировать в новую переменную ограничив, допустим на 10 символов?

Вопрос задан более трёх лет назад
1248 просмотров

2 комментария

Подписаться 1 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++: Профессия + специализация + нейросети

12 месяцев

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее
Яндекс Практикум

Разработчик C++

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

10 комментариев

DiIce @DiIce Автор вопроса

Можете помочь по другому вопросу?
Возможно будет проще перекодировать в ср1251, сделать все вычисления со строкой, а потом обратно загнать в ютф8?
Посоветуете способ перекодировки?

Написано более трёх лет назад
Mercury13 @Mercury13

DiIce: Нет!! — это потеря данных. В Юникоде 1 млн символов (теоретически) и около 150 тыс. (реально), в cp1251 — несчастные 256.

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Я точно знаю что в этом тексте только русские буквы, английские буквы и цифры. И ничего более.

Написано более трёх лет назад
Mercury13 @Mercury13

Стандартного способа конвертации нет. Теоретически std::locale, но реально — возможно, как-то и работает на Linux, на Windows — фигвам.
Для преобразования есть libiconv, но я с ней не работал.

Написано более трёх лет назад
Олег Цилюрик @Olej

DiIce:
Посоветуете способ перекодировки?

Вам нужно перекодировать строку char в строку wchar_t.
В библиотеке C операции по перекодированию мультибайтных символов (а UTF-8 - это именно и есть мультибайтные символы) используются функции вида mb*(): mbrlen(), mbrtowc(), и т.д.

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Олег Цилюрик: сначала перекодировать, а дальше mb, верно?

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Олег Цилюрик: Олег, просто я php программист, с++ вижу второй раз в жизни, отсюда и вопросы тупые. Как конкретно перевести string в wstring

Написано более трёх лет назад
Олег Цилюрик @Olej
DiIce:
не совсем:
- перекодировать в wchar_t именно используя mb*() ... или их эквиваленты в C++ ...
- строка wchar_t - это уже строка Unicode,
- с ней можете делать всё привычное, что и со строками char:
wchar_t *str[] = L"русская строка"; str[ 7 ] = L'\0'; // останется только "русская"
Написано более трёх лет назад

Олег Цилюрик @Olej

DiIce:

Как конкретно перевести string в wstring

#define LENGTH 160 
char    buf  [ LENGTH ] = "тестовая русскоязычная  строка  в UTF-8 с прямым порядком слов "; 
wchar_t wbuf [ LENGTH ]; 

void test03( void ) { 
   int n = -1, i; 
   char *p; 
   char *loc = setlocale( LC_ALL, "" );  // только после этого работают преобразования! 
   printf( "преобразование UTF-8 символов в широкие (wchar_t):\n" ); 
   printf( "локаль программы установлена: %s\n", loc ); 
   printf( "строка UTF-8 до преобразования: '%s'\n" 
           "длина UTF-8 строки = %d байт\n", 
           buf, strlen( buf ) ); 
   for( i = 0, p = (char*)buf; n != 0; i++ ) 
      p += ( n = mbtowc( wbuf + i, p, MB_CUR_MAX ) ); 
   printf( "преобразованная строка: '%ls'\n" 
           "длина преобразованной строки = %d символов (%d байт)\n", 
           wbuf, wcslen( wbuf ), wcslen( wbuf ) * sizeof( wchar_t ) ); 
}

Это чистый C, на C++ это можно изложить изящнее. Но логика везде одна и та же.
Без установки локали setlocale( LC_ALL, "" ) (или locale::global( locale( "" ) ) - в C++) всё это работать не будет.

Написано более трёх лет назад

abcd0x00 @abcd0x00

Олег Цилюрик:
Да и на C это можно приличнее сделать.

Я тут подкорректировал немного.

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <wchar.h>
#include <locale.h>

#define LENGTH 160

char buf[LENGTH] =
    "тестовая русскоязычная строка "
    "в UTF-8 с прямым порядком слов";
wchar_t wbuf[LENGTH];

void test(void)
{
   char *loc;
   int n;

   loc = setlocale(LC_ALL, "");
   wprintf(L"Преобразование UTF-8 символов в широкие (wchar_t):\n");
   wprintf(L"Локаль программы установлена:\n\t%s\n", loc);
   wprintf(L"Строка UTF-8 до преобразования:\n\t'%s'\n"
           L"Длина UTF-8 строки:\n\t%d байт\n",
           buf, strlen(buf));
   n = mbstowcs(wbuf, buf, sizeof wbuf / sizeof wbuf[0] - 1);
   wbuf[n] = L'\0';
   wprintf(L"Преобразованная строка:\n\t'%ls'\n"
           L"Длина преобразованной строки:\n\t%d символов (%d байт)\n",
           wbuf, wcslen(wbuf), wcslen(wbuf) * sizeof(wchar_t));
}

int main(void)
{
    test();
    return 0;
}

Там важно занулить в конце, нельзя это так оставлять, полагаясь на зануление во внешней области.

Теперь и вывод стал красивее

[guest@localhost c]$ gcc -std=c99 -pedantic -Wall tr.c -o tr; ./tr
Преобразование UTF-8 символов в широкие (wchar_t):
Локаль программы установлена:
	ru_RU.UTF-8
Строка UTF-8 до преобразования:
	'тестовая русскоязычная строка в UTF-8 с прямым порядком слов'
Длина UTF-8 строки:
	107 байт
Преобразованная строка:
	'тестовая русскоязычная строка в UTF-8 с прямым порядком слов'
Длина преобразованной строки:
	60 символов (240 байт)
[guest@localhost c]$

А то приходилось выискивать полчаса, где и что оно там пишет.

Написано более трёх лет назад

10 комментариев

DiIce @DiIce Автор вопроса

Можно подобробнее?

Написано более трёх лет назад
Олег Цилюрик @Olej

DiIce:
я же вам ссылки дал: там архивы прямо с примерами кода

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Олег Цилюрик: Олег, я написал комментарий раньше, чем вы изменили сообщение:)
в целом огромное спасибо, но у меня все равно не получается нормально сделать, если сможете мне помочь - по тми виверу например - буду вам очень сильно благодарен, в том числе и финансово, если вас это конечно интересует

Написано более трёх лет назад
Олег Цилюрик @Olej

DiIce:
в профиле есть контакты

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Олег Цилюрик: да, я уже отправил вам письмо. Мой емейл subober@ya.ru

Написано более трёх лет назад
Mercury13 @Mercury13

Ну, это зависит от операционной системы. На большинстве Unix’ов — да, на Windows — нет. Да, на Windows wchar_t — это тоже НЕ ОДИН СИМВОЛ, гуглите, что такое UTF-16 и «суррогатная пара».

Написано более трёх лет назад
Mercury13 @Mercury13

И на Java и C# — тоже нет.

Написано более трёх лет назад
Mercury13 @Mercury13

Ыгы, на современных реализациях Unix wchar_t — это 4 байта, на Windows — два.

Написано более трёх лет назад
DiIce @DiIce Автор вопроса

Mercury13: а может вы мне сможете конкретным кодом помочь за денежку?)

Написано более трёх лет назад
Олег Цилюрик @Olej

Mercury13:
ну и что с того, что 4 или 2? на UNIX wchar_t это UTF-32, а на Windows - UTF-16

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- вчера
- 46 просмотров
1

ответ
C++

Простой
Почему не работает передача контекста между приложениями?
- 1 подписчик
- 19 дек.
- 64 просмотра
1

ответ
C++

Простой
Какой контейнер выбрать для поиска по ключу для разных размеров?
- 2 подписчика
- 14 дек.
- 147 просмотров
0

ответов
C++

+2 ещё

Простой
Как прочитать данные из пайпа в C++ не перепутав с TTY stdin?
- 1 подписчик
- 14 дек.
- 91 просмотр
1

ответ
C++

Простой
Почему function wrapper с ссылкой в сигнатуре может принимать pointer to member function?
- 1 подписчик
- 11 дек.
- 78 просмотров
0

ответов
C++

Простой
Как лучше реализовать асинхронную задержку?
- 2 подписчика
- 04 дек.
- 212 просмотров
2

ответа
C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 3 подписчика
- 26 нояб.
- 335 просмотров
1

ответ
C++

+1 ещё

Простой
Как узнать, хранятся числа в компьютере в прямом, дополнительном или обратном коде?
- 1 подписчик
- 23 нояб.
- 480 просмотров
6

ответов
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 492 просмотра
5

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 101 просмотр
1

ответ
Показать ещё Загружается…

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Спасибо, очень полезный ответ на вопрос:)

Answer 1 · 2016-01-08 10:39:37

Станислав Макаров @Nipheris Куратор тега C++

ICU

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2016-01-07 19:50:27

Символов Юникода или байтов UTF-8?

В любом случае байты UTF-8 делятся на три категории…
• Начальные: 0x00…0x79, и 0xC0…0xF4
• Дополнительные (не бывают в начале): 0x80…0xBF
• Запрещённые: 0xF5…0xFF. В наших целях тоже можно отнести к начальным.

Если задача — получить 10 символов, то находим 11-й начальный символ и обрезаем перед ним.

Если задача — получить 10 байт и 11-й (s[10], если таковой есть, разумеется) — не начальный, начинаем урезать строку, пока не отрежем начальный символ.

Answer 3 · 2016-01-07 20:22:34

Как ее корректно обрезать или частично скопировать в новую переменную ограничив, допустим на 10 символов?

Корректно - никак (это всё будут фокусы).
Корректно с локализованными строками вы должны работать как wstring, строки wchar_t ...дальше вы можете с ними делать всё привычны способом: определять длину, искать символы, обрезать и дополнять...

P.S. Если не лень, можете покопаться и найти готовые примеры кода здесь:
Задачи по программированию на языке C
Задачи по программированию на языке C++
А если лень ... то, значит, и не очень нужно ;-)

Как корректно обрезать строку тип string в utf8 на с++?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт