Удалить Emojii символ из строки в Qt?

Question

BadCats @BadCats

Удалить Emojii символ из строки в Qt?

Есть эмодзи https://emojipedia.org/tooth/ - необхлдимо удалить его из строки.

Юникод брал отсюда: https://www.fileformat.info/info/unicode/char/1f9b...

Варианты:

C/C++/Java source code "\uD83E\uDDB7"

if (d->at(k).contains(u8"\\uD83E\\uDDB7")) 

if (d->at(k).contains(QString::fromUtf8(QByteArray("f09fa6b7"))))

Оба варианта не срабатывают.

Небольшое уточнение:

В Qt данный эмодзи отображается как два символа 55358(0xd83e) и 56759 (0xdbd7), как и здесь:

www.mauvecloud.net/charsets/CharCodeFinder.html
(для проверки - скопировать отсюда - https://emojipedia.org/tooth/)

причем, проверки на эти два символа:

if (d->at(k).contains("0xd83e")) и if (d->at(k).contains("0xdbd7"))

- как раз, наоборот срабатывают, но

const_cast<QString*>(&d->at(k))->remove("\0xd83e");
const_cast<QString*>(&d->at(k))->remove("\0xdbd7");

- не дают эффекта.

Основной вопрос:

Прошу подсказать, как удалить данный символ и ему подомные(эмодзи)

Дополнительный вопрос:
Так же, что можно почитать про вопросы связанные с кодировкой и ее форматами.

Вопрос задан более трёх лет назад
316 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

Ighor July @IGHOR Куратор тега Qt

что такое d?

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

Игорь Джулай, Элемент из
QList<QStringList*>&
в for(var: container)

Написано более трёх лет назад
Ighor July @IGHOR Куратор тега Qt

BadCats, не надо там по -> доставать элемент и const_cast делать, используйте [n]

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

Игорь Джулай, Извините, не могли бы Вы еще подсказать, почему d[k] - воспринимается как QStringList

non-const lvalue reference to type 'QString' cannot bind to a value of unrelated type 'QStringList'

Написано более трёх лет назад
BadCats @BadCats Автор вопроса
bool SettingsConverter::writeToDb(QList<QStringList*>& values,int mode)

for (QStringList* d : values)
Написано более трёх лет назад
Ighor July @IGHOR Куратор тега Qt

BadCats, обращаться для записи в метод надо таким образом (*d)[n] и не надо будет делать const_cast

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++: Профессия + специализация + нейросети

12 месяцев

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее
Яндекс Практикум

Разработчик C++

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

BadCats @BadCats Автор вопроса

проверил, к сожалению, символ все рано остается

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

Посмотрел, не заходит в while

Написано более трёх лет назад
BadCats @BadCats Автор вопроса

Судя по регулярному выражению, как я понимаю, Вы ищите в передаваемой строке u8"\\uD83E\\uDDB7", но Qt почему то отказывается интерпретировать этот эмодзи так.

В Qt данный эмодзи отображается как два символа 55358(0xd83e) и 56759 (0xdbd7),

Написано более трёх лет назад
Ighor July @IGHOR Куратор тега Qt

BadCats, в кодировке UTF8 оно и будет занимать два символа, но в QString это будет один символ так как этот класс поддерживает все кодировки.

Написано более трёх лет назад
Freeman @Vapaamies
Это суррогатные пары UTF-16. U+D8xx должен идти первым, нижний суррогат вторым. Диапазоны:

U+D800..U+DBFF

U+DC00..U+DFFF
Написано более трёх лет назад
BadCats @BadCats Автор вопроса
Игорь Джулай , Vapaamies спасибо Вам за ответы и помощь, действительно спасибо. Я не хочу показаться грубым (действительно не хочу) и слишком требовательным - т.к понимаю, что это все сугубо мои проблемы, в том числе от недостатка знаний, и мне никто ничего не должен. Далее, прозвучит как отмазка и нежелание разбираться, но, сейчас, мне кровь из носу нужно "просто решить проблему" и удалить эти символы. Я обязательно разберусь с кодировками и с вот этим термином
суррогатные пары
, но буду Вам обоим очень благодарен, если Вы поможете решить задачу (опять же, понимаю, что Вы мне ничего не должны и так потратили время на этот вопрос).

Вот, как в отладчике выглядит эта строка:

"\154075\some text data\154076\156667 some text data\154075\156150\154074\157773\20015⚕️ some text data\154075\156232 some text data
- так и не могу понять, как удалить символы.
В любом случае, еще раз спасибо.
Написано более трёх лет назад

1 комментарий

BadCats @BadCats Автор вопроса
Спасибо за ответ.
К сожалению, не сработало.

На случай, если я где-то ошибся - вот код:

qDebug()<<(*d)[k]; (*d)[k]= (*d)[k].remove(QRegularExpression("[\\x{1F600}-\\x{1F7FF}]+")); qDebug()<<(*d)[k];

и такой вариант - так же:

(*d)[k]=(*d)[k].remove("\U0001F9B7");

Причем, судя по https://www.fileformat.info/info/unicode/char/1f9b...

- это
Python source code u"\U0001F9B7"
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- 21 час назад
- 34 просмотра
1

ответ
C++

Простой
Почему не работает передача контекста между приложениями?
- 1 подписчик
- вчера
- 62 просмотра
1

ответ
C++

Простой
Какой контейнер выбрать для поиска по ключу для разных размеров?
- 2 подписчика
- 14 дек.
- 144 просмотра
0

ответов
C++

+2 ещё

Простой
Как прочитать данные из пайпа в C++ не перепутав с TTY stdin?
- 1 подписчик
- 14 дек.
- 90 просмотров
1

ответ
C++

Простой
Почему function wrapper с ссылкой в сигнатуре может принимать pointer to member function?
- 1 подписчик
- 11 дек.
- 77 просмотров
0

ответов
C++

Простой
Как лучше реализовать асинхронную задержку?
- 2 подписчика
- 04 дек.
- 212 просмотров
2

ответа
C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 3 подписчика
- 26 нояб.
- 333 просмотра
1

ответ
C++

+1 ещё

Простой
Как узнать, хранятся числа в компьютере в прямом, дополнительном или обратном коде?
- 1 подписчик
- 23 нояб.
- 479 просмотров
6

ответов
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 491 просмотр
5

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 101 просмотр
1

ответ
Показать ещё Загружается…

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Игорь Джулай, Элемент из
QList<QStringList*>&
в for(var: container)
BadCats, не надо там по -> доставать элемент и const_cast делать, используйте [n]
Игорь Джулай, Извините, не могли бы Вы еще подсказать, почему d[k] - воспринимается как QStringList

non-const lvalue reference to type 'QString' cannot bind to a value of unrelated type 'QStringList'
bool SettingsConverter::writeToDb(QList<QStringList*>& values,int mode)

for (QStringList* d : values)
BadCats, обращаться для записи в метод надо таким образом (*d)[n] и не надо будет делать const_cast

Answer 1 · 2020-07-12 22:10:23

Получилось удалить символы. Суть в том, что Qt почему-то не воспринимает симол, если пытаться удалить или заменить его, обращаясь, как

U0001F9B7

, даже, если символ там точно присутствует и выводится в таком формате в консоль, через qDebug().

Для удаления симолов эмодзи, необходимо воспользоваться статическим методом QString::fromWCharArray() - куда передать сурогатные пары

(как раз те, ккоторые видны в отладчике как 55358(0xd83e) и 56759 (0xdbd7) - в моем случае, для данного эмодзи).

Метод будет выглядеть так:

QString::fromWCharArray(L"\xD83E\xDDB7");

и, он как это не странно вернет ту же строку - U0001F9B7, но вот ее, почему-то, Qt уже прекрасно удаляет:

QString tmpStr=QString::fromWCharArray(L"\xD83E\xDDB7");
myStr.remove(tmpStr);

В поисках ответа мне помогли:

Эта тема на английском SO:
https://stackoverflow.com/questions/30247319/how-d...
(Не уверен, можно ли на тостере оставлять ссылки на другие форумы, поэтому, вот цитата ответа:

You already know the answer - specify it as a proper UTF-16 string.

Unicode codepoints above U+FFFF are represented in UTF-16 using a surrogate pair, which is two 16bit codeunits acting together to represent the full Unicode codepoint value. For U+1F50E, the surrogate pair is U+D83D U+DD0E.

In Qt, a UTF-16 codeunit is represented as a QChar, so you need two QChar values, eg:
edit.setText(QString::fromWCharArray(L"\xD83D\xDD0E"));
or:
edit.setText(QString::fromStdWString(L"\xD83D\xDD0E"));
Assuming a platform where sizeof(wchar_t) is 2 and not 4.

In your example, you tried using QString::fromUtf8(), but you gave it an invalid UTF-8 string. For U+1F50E, it should have looked like this instead:
edit.setText(QString::fromUtf8("\xF0\x9F\x94\x8E"));
You can also use QString::fromUcs4() instead:
uint cp = 0x1F50E; edit.setText(QString::fromUcs4(&cp, 1));

)
Данный калькулятор для вычисления юникода по суррогатным парам и наоборот:
www.russellcottrell.com/greek/utilities/SurrogateP...

Answer 2 · 2020-07-06 21:56:14

void translateUnicodeStr(QString& str)
{
    static const QRegExp rx("(\\\\u[0-9a-fA-F]{4})");
    int pos = 0;

    while ((pos = rx.indexIn(str, pos)) != -1)
        str.replace(pos++, 6, QChar(rx.cap(1).right(4).toUShort(nullptr, 16)));
}

Answer 3 · 2020-07-07 01:16:18

Freeman @Vapaamies

Психанул и снес свои ответы не отмечающим решения…

return str.remove(QRegularExpression("[\\x{1F600}-\\x{1F7FF}]+"));

Ответ написан более трёх лет назад

1 комментарий

Удалить Emojii символ из строки в Qt?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт