Как вытащить из текста эмоджи?

В датафрейме есть колонка "comment_text" с текстом, содержащий эмоджи. Я вытащила встречающиеся в тексте эмоджи в отдельную колонку "emoji". Теперь мне нужно удалить строки, которые не содержат эмоджи, и вместо нескольких эмоджи оставить только одну.
65808c4671a5e634587285.jpeg
  • Вопрос задан
  • 121 просмотр
Решения вопроса 1
Maksim_64
@Maksim_64
Data Analyst
В целом тебе нет необходимости для "удаления" вытаскивать в отдельную колонку. Обычно из фрейма ничего не удаляют, его не изменяют, а извлекают из него подсеты которые отвечают твоим требованиям. Код придется картинкой опубликовать а то форматирование не поддерживает эмоджи.
6580990e822cb151482037.png

Если ты не знаешь всех своих эмоджи то есть библиотеки получи все юникоды своих эмоджи и проверяй строку не содержит ли она юникод эмоджи, это будет очень медленно. лучше выбрать их несколько я думаю там их не много и как у меня в примере просто пусть их там десятка два будет а не два. Можно также попробовать простенькой регуляркой отловить что то типа такого
df[df['comment_text'].str.contains(r'[^\w\s,]', regex=True)]
Для моего примера работает, сработает ли в целом неизвестно.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы