Задать вопрос
@ivodopyanov
NLP, python, numpy, tensorflow

Есть ли алгоритмы для автоматического выделения похожих числовых значений в наборе текстов?

В текстах могут часто встречаются всякие числовые значения - даты, номера телефонов, какие-нибудь уникальные номера вроде паспорта. Причем их формат вариативен - пользователь может написать дату с разделителем-точкой, может с разделителем-запятой или слэшем. В случае телефона вариативность написания еще больше. А тот же номер паспорт может состоять из одного слова; из двух; дополнительно включать в себя слова "серия" и "номер" или только символ "№". Пользователь может где-то поставить лишний пробел, а где-то наоборот пропустить.

Есть ли какие-нибудь алгоритмы для автоматической кластеризации подобных значений?
Сам пока пытаюсь что-нибудь придумать с n-граммами и word2vec, предварительно заменив все цифры на одну. Но хорошего результата не получается.
  • Вопрос задан
  • 124 просмотра
Подписаться 2 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Аналитик данных
    7 месяцев
    Далее
  • Skillfactory
    Data Scientist с нуля до PRO
    25 месяцев
    Далее
  • Хекслет
    Аналитик данных
    9 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 1
sgjurano
@sgjurano
Разработчик
Вообще звучит как задача для регулярных выражений, не следует пихать нейронные сети везде.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы