Задать вопрос

AgentFSB @AgentFSB

машинное-обучение

Кластеризация смс сообщения и получение переменной части каждого кластера. Какие есть пути решения?

Имеется выборка смс сообщений. Задача составить для этих сообщений регулярные выражения. Тексты могут быть абсолютно на разные темы и какой-то определенной закономерности нету. Я разбил задачу на две.

Первая - это кластеризация.
Вторая - генерация регулярного выражения для каждого кластера.

Для кластеризации использую свой алгоритм основанный на алгоритме Оливера для сравнения похожести строк. Пробовал алгоритм db scan, но столкнулся с проблемой подбора epsilon и minPts. Для одних текстов слишком маленькое для других большое, что-то среднее найти не получилось. Например, есть тексты

"Raymond Adamson your are arrived. Phone - 12341234."
"Raymond Adamson your are arrived. Phone - 12341234."
"Peter Parker your are arrived. Phone - 12121212."

Они должны попасть в один кластер и на выходе должно быть что-то типо "{var} your are arrived. Phone - {var}."

или

assigned green Ford Escape A1234BC, +16507599755.
assigned red NISSAN V555QW, +16507512321.

Они тоже должны попасть в один кластер. И получим "assigned {var}".

Проблема в правильной кластеризации совершено разных и текстов. Кто-нибудь сталкивался с подобным?
Может есть готовые решения для задач такого рода или библиотеки

Вопрос задан более трёх лет назад
106 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
OTUS

Machine Learning. Professional

5 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 162 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 192 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 186 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 398 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 380 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 454 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 147 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 305 просмотров
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend developer

Creative Code

До 160 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽