Как правильно посчитать длину текста с эмодзи в Python?

Question

Аркадий Гальченко @EntireMusic

(:

Как правильно посчитать длину текста с эмодзи в Python?

Столкнулся с проблемой при написании функции для телеграм-бота, который обрабатывает текст и добавляет новые entities (свойства текста). Иногда он это делает со смещением. Как показала практика, это связано с подсчётом длины сообщения из-за наличия в них эмодзи.

Многие эмодзи на самом деле занимают два символа, хоть отображаются как одна "картинка". Естественно и длина этих эмодзи определяется как 1 символ.

Пример. Делаем строку с таким эмодзи.

spoiler

Но на самом деле эмодзи из двух символов:

spoiler

Пайтон видит длину так:

spoiler

В итоге в Телеграм сообщение имеем такое смещение при добавлении текстовой ссылки:

spoiler

Как можно исправить этот косяк? Чем и как считать длину? По идее же, это UTF-8 показывает эмодзи как один символ. Может как-то менять кодировку при подсчёте длины?

Вопрос задан более двух лет назад
642 просмотра

5 комментариев

Подписаться 1 Простой 5 комментариев

fenrir @fenrir1121

Изображения уберите под спойлер и вместо этого продемонстрируйте код.
По текущему описанию не ясно как между собой связаны ссылки и эмодзи и при чем тут длина текста, телега понимает обычные маркдаун ссылки.
А вообще таких эмодзи, которые состоят из двух символов не очень много и первый это модификатор цвета, а второй сам эмодзи. Уверен есть библиотека для их проверки

Написано более двух лет назад
Аркадий Гальченко @EntireMusic Автор вопроса

fenrir, изображение более чем понятно демонстрирует проблему. Эмодзи из двух символов считается одним символом. Мне нужно их посчитать посимвольно. Как это организовать.

В моём варианте маркдаун и парс мод не подходят.

Написано более двух лет назад
fenrir @fenrir1121

Аркадий Гальченко,
В моём варианте маркдаун и парс мод не подходят.

Здорово написать что решения не подходят, но не объяснить почему и не приложить код.

Ну ок, значит берите пакет emoji и вручную обрабатывайте.

Написано более двух лет назад
Аркадий Гальченко @EntireMusic Автор вопроса
fenrir, это не решение. Задача в том чтобы посчитать символы в тексте, содержащем эмодзи. Где он дальше используется и как - это уже другой вопрос, я прикрепил просто для наглядности. Если тебе нечего предложить по моей теме, очень жаль.

Нужен код? Вот код.

s = "" #эмодзи удаляет хабр print(len(s))

Нужно, чтобы len показала реальную длину эмодзи в символах — два символа.
Написано более двух лет назад
Модератор @TosterModerator

Аркадий Гальченко, Фрагменты кода надо размещать в виде текста и оборачивать тэгом code для корректного отображения. Удобно делать кнопкой </>
Это обязательно, см.п.3.8 Регламента.
Сюда же относится traceback, ввод и вывод в консоли и другая структурированная текстовая инфа.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

SMM-продвижение в Телеграме

1 месяц

Далее
Skillbox

Профессия Интернет-маркетолог

12 месяцев

Далее
GB (GeekBrains)

Интернет-маркетолог

12 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Аркадий Гальченко @EntireMusic Автор вопроса

Не очень понимаю, о каком "веб-редакторе" речь?

Написано более двух лет назад
Freeman @Vapaamies

Аркадий Гальченко, в котором текст TRIENING.py на скриншотах.

Написано более двух лет назад
Аркадий Гальченко @EntireMusic Автор вопроса

Vapaamies, это не веб-редактор, это IDE Pydroid 3. На Pycharm код работает аналогично. На Visual studio не пробовал. Это "нормальный редактор для программистов"? Да и вообще у меня большие сомнения, что IDE может влиять на считывание эмодзи, скорее сама версия Python или кодировка .py файла

Написано более двух лет назад
Аркадий Гальченко @EntireMusic Автор вопроса
Vapaamies, проверил, эта беда с любым эмодзи в Телеграм.

При сообщении:

И коде:

... print(f"len = {len(message.text)}") print(message.entities) ...

Вывод такой:

len = 7 [<MessageEntity {"type": "bold", "offset": 5, "length": 3}>]

Что само по себе не нормально. Смайл самый обычный, не цветной. А entities показывает смещение 5 и длину 3, как будто 8 символов в сообщении.
Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+3 ещё

Простой
Какое API можно использовать для просмотра фильмов в тг боте?
- 1 подписчик
- 04 дек.
- 144 просмотра
0

ответов
Telegram

Средний
Почему WebApp открывается в обычном браузере вместо Telegram?
- 2 подписчика
- 22 нояб.
- 159 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 483 просмотра
2

ответа
Telegram

Простой
Сброс вебхука телеграм сразу после деплоя на Render. Можно ли побороть?
- 2 подписчика
- 19 нояб.
- 202 просмотра
1

ответ
Telegram

+1 ещё

Средний
Почему не грузит картинки и видео через mtproto proxy в телеграм?
- 1 подписчик
- 17 нояб.
- 290 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как запретить тг ботам писать мне без их блокировки?
- 1 подписчик
- 08 нояб.
- 824 просмотра
2

ответа
Telegram

Простой
Возможна ли уникальная авторизация бота для разных чатов Telegram?
- 1 подписчик
- 07 нояб.
- 168 просмотров
1

ответ
Веб-разработка

+1 ещё

Средний
Как запретить отскок сайта webapp telegram?
- 2 подписчика
- 05 нояб.
- 337 просмотров
0

ответов
Telegram

Простой
Как зарегистрироваться в telegram из России?
- 1 подписчик
- 03 нояб.
- 668 просмотров
2

ответа
Telegram

Сложный
Можно в телеграмм мини апах один раз запросить разрешение на запись видео/аудио?
- 1 подписчик
- 30 окт.
- 104 просмотра
0

ответов
Показать ещё Загружается…

Разработчик Telegram-бота с ИИ (TypeScript / Node.js)

App Company

от 200 000 до 300 000 ₽

Middle Fullstack Engineer

Asphera Technologies

от 60 000 ₽

Python Developer/ DevOps (trading)

Рестадвайзер • Москва

от 250 000 ₽

Изображения уберите под спойлер и вместо этого продемонстрируйте код.
По текущему описанию не ясно как между собой связаны ссылки и эмодзи и при чем тут длина текста, телега понимает обычные маркдаун ссылки.
А вообще таких эмодзи, которые состоят из двух символов не очень много и первый это модификатор цвета, а второй сам эмодзи. Уверен есть библиотека для их проверки
fenrir, изображение более чем понятно демонстрирует проблему. Эмодзи из двух символов считается одним символом. Мне нужно их посчитать посимвольно. Как это организовать.

В моём варианте маркдаун и парс мод не подходят.
Аркадий Гальченко,
В моём варианте маркдаун и парс мод не подходят.

Здорово написать что решения не подходят, но не объяснить почему и не приложить код.

Ну ок, значит берите пакет emoji и вручную обрабатывайте.
fenrir, это не решение. Задача в том чтобы посчитать символы в тексте, содержащем эмодзи. Где он дальше используется и как - это уже другой вопрос, я прикрепил просто для наглядности. Если тебе нечего предложить по моей теме, очень жаль.

Нужен код? Вот код.

s = "" #эмодзи удаляет хабр print(len(s))

Нужно, чтобы len показала реальную длину эмодзи в символах — два символа.
Аркадий Гальченко, Фрагменты кода надо размещать в виде текста и оборачивать тэгом code для корректного отображения. Удобно делать кнопкой </>
Это обязательно, см.п.3.8 Регламента.
Сюда же относится traceback, ввод и вывод в консоли и другая структурированная текстовая инфа.

Answer 1 · 2024-06-04 11:38:35

Готовый редактор постов канала, некорректно работает только если есть группа медиа и описание написано не к первому медиа)) В таком случае ссылки добавятся к первому медиа, но в следующем тоже будет описание, в итоге Телеграм не покажет ни одно. Но это исключение, лень фиксить.

from aiogram import Router, types, F
from aiogram.utils import formatting as fmt


# Редактор постов канала в отдельном роутере
router = Router()

# Это понадобится, чтобы в медиагруппе редактировалось только описание первого медиа
check_mg = set()

#Фильтры: проверим что пост не переслан и что это медиа имеющие caption
@router.channel_post(~F.forward_from_chat, ~F.forward_from, (F.text | F.photo | F.video | F.animation | F.document))
async def redactor(message: types.Message):
    # Собираем текстовые данные из поста
    text = message.text or message.caption or ''

    # Собираем те entities которые уже есть в посте
    ent = message.entities or message.caption_entities or []

    # Удаляем встроенные ссылки если они есть
    ent = [e for e in ent if e.type != 'text_link']

   # Через инструмент formatting создаём внешний вид будущего поста
    content = fmt.Text(
        # Старый текст
        text,
        '\n\n',
        # В моём случае я добавляю три ссылки на канал, чат и админа с эмодзи-разделителем
        fmt.as_line(
            fmt.Bold(fmt.TextLink("Канал", url='https://t.me/1')),
            fmt.Bold(fmt.TextLink("Чат", url='https://t.me/2')),
            fmt.Bold(fmt.TextLink("Админ", url='https://t.me/3')),
            # Тут эмодзи который будет между ссылками
            sep='  '
        )
    )
    # Собираем новый текст и новые entities в кучу
    text, new_ent = content.render()

    # Тут расписывать не буду, разные проверки и разные варианты отправки отредактированного сообщения
    if message.text is not None:
        if len(text) <= 4096:
            await message.edit_text(text, entities=ent + new_ent, disable_web_page_preview=True)
        else:
            print("Can't edit Text, length exceeded.")
    elif message.media_group_id is None:
        if len(text) <= 1024:
            await message.edit_caption(caption=text, caption_entities=ent + new_ent, disable_web_page_preview=True)
        else:
            print("Can't edit Caption, length exceeded.")
    elif message.media_group_id not in check_mg:
        check_mg.add(message.media_group_id)
        if len(text) <= 1024:
            await message.edit_caption(caption=text, caption_entities=ent + new_ent, disable_web_page_preview=True)
            await asyncio.sleep(1)
            check_mg.remove(message.media_group_id)
        else:
            print("Can't edit Caption, length exceeded.")

Answer 2 · 2022-12-19 14:53:01

Проблема наверняка в веб-редакторе, режущем символ цвета. В самом Питоне проблемы нет. Если скопировать цветной эмодзи в нормальный редактор для программистов, отображающий кодировку и коды символов, всё работает.

python emo.py
2

Как правильно посчитать длину текста с эмодзи в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт