Pandas: как сделать консолидацию по похожим строкам?

Question

Ainvain @Ainvain

Python

Pandas: как сделать консолидацию по похожим строкам?

Есть таблица с колонками Phrase, count, где Phrase - строка текста, а count - количество чётких совпадений в другом массиве (число).
Нужно, используя какую-либо пригодную для этой задачи функцию сравнения текста, выделить группы похожих значений Phrase (Что, что, ЧТо?, Што??? и т.п.), объединить в одну строку, где Phrase - значение записи с наибольшим count среди группы, а в count - сумма count всей группы.

То есть есть, к примеру, таблица:

Phrase count
Что 10
Что? 24
Чта 2
Что?? 5
ЧТО??? 10
Как 20
КаК 2
Как? 37
Как?? 5
Как??? 7

Желаемый результат:
Phrase count
Что? 51
Как? 71

Вопрос задан более трёх лет назад
141 просмотр

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 493 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 281 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 507 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-05-26 10:54:20

df.groupby(df['Phrase'].str.lower().str.extract(r"(\w+)", expand=False)).sum()

Подобным образом можно объединить, игнорируя регистр и всякие знаки (т.е. в предложенном примере разделит на 3 группы).
Но чтобы программа поняла, что "что" и "чта" в одной группе, надо будет добавить или словарь со всеми "синонимами" слов или применять что-нибудь типа nltk (но вроде он тоже "чта" не поймет как "что").
Если же в реальности там именно целые предложения, то тогда без nltk скорее всего не обойтись, но и он однозначно тоже не сможет понять эти "чта" скорее всего.

Pandas: как сделать консолидацию по похожим строкам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт