Задать вопрос

ivodopyanov @ivodopyanov

NLP, python, numpy, tensorflow

data-mining

Data Mining

Есть ли алгоритмы для автоматического выделения похожих числовых значений в наборе текстов?

В текстах могут часто встречаются всякие числовые значения - даты, номера телефонов, какие-нибудь уникальные номера вроде паспорта. Причем их формат вариативен - пользователь может написать дату с разделителем-точкой, может с разделителем-запятой или слэшем. В случае телефона вариативность написания еще больше. А тот же номер паспорт может состоять из одного слова; из двух; дополнительно включать в себя слова "серия" и "номер" или только символ "№". Пользователь может где-то поставить лишний пробел, а где-то наоборот пропустить.

Есть ли какие-нибудь алгоритмы для автоматической кластеризации подобных значений?
Сам пока пытаюсь что-нибудь придумать с n-граммами и word2vec, предварительно заменив все цифры на одну. Но хорошего результата не получается.

Вопрос задан более трёх лет назад
124 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее
Skillbox

Профессия Data Analyst

12 месяцев

Далее
ProductStar

Профессия: Аналитик данных

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

sgjurano

Владимир Олохтонов @sgjurano

Разработчик

Вообще звучит как задача для регулярных выражений, не следует пихать нейронные сети везде.

Ответ написан более трёх лет назад

2 комментария

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Data Mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более двух лет назад
- 164 просмотра
2

ответа
API

+3 ещё

Простой
Каким образом сервисы аналитики типа MPStats получают данные о продажах с Wildberries, Ozon, итд?
- 1 подписчик
- более трёх лет назад
- 460 просмотров
1

ответ
Математика

+2 ещё

Средний
Как найти неизвестные параметры функции, зная ее значения?
- 1 подписчик
- более трёх лет назад
- 485 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как проверить наличие ключевого слова на сайте из списка?
- 2 подписчика
- более трёх лет назад
- 73 просмотра
1

ответ
Жёсткие диски

+1 ещё

Простой
Как подключиться к chives pool?
- 1 подписчик
- более трёх лет назад
- 166 просмотров
1

ответ
Видеокарты

+2 ещё

Сложный
Какое охлаждение подойдёт на Rx590 armor, вместо штатного?
- 1 подписчик
- более трёх лет назад
- 419 просмотров
2

ответа
PowerShell

+1 ещё

Простой
Копирование атрибутов файлов(даты создания, изминения) из оригинала в копию?
- 1 подписчик
- более трёх лет назад
- 441 просмотр
2

ответа
Data Mining

+1 ещё

Сложный
Тонкие клиенты настройка?
- 1 подписчик
- более трёх лет назад
- 98 просмотров
1

ответ
Алгоритмы

+2 ещё

Простой
Какой фильтр надо использовать для графика XYZ?
- 1 подписчик
- более трёх лет назад
- 122 просмотра
2

ответа
Python

+2 ещё

Простой
Как спарсить даты в формат datetime в Pandas?
- 1 подписчик
- более трёх лет назад
- 1432 просмотра
2

ответа
Показать ещё Загружается…

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Java разработчик

SENSE

До 450 000 ₽