Как найти дубликаты записей по смыслу?

Question

alexbbfg @alexbbfg

Как найти дубликаты записей по смыслу?

Добрый день, всем!

Есть перечень (номенклатура) объектов по названию, в виде таблицы. Название обекта состоит из нескольких слов и возможно буквенно-цифрового дополнения. В списке существуют одинаковые по смыслу объекты, но различные по написанию. Например:
Муфта металлическая 3-М,
Металл. муфта 3-М и
Металлическая муфта 5-В,
так вот, Муфта металлическая 3-М и Метал. муфта 3-М -это объекты одинаковые по смыслу, но различные по написанию.
Вот и нужен алгоритм, который проанализирует вест список и найдет одинаковые по смыслу объекты (хотя бы процентов 70%)
Какие можно использовать подходы к анализу? Возможно уже есть готовые решения? Интересуют так же теоретические выкладки с описанием принципов, код как-нибудь напишем))

Буду рад любой помощи.

Вопрос задан более трёх лет назад
290 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 388 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 281 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 405 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 295 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 252 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 235 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 391 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-09-21 14:42:33

1. Сначала задайте синонимы
Метал. = метал. = металлическая
2. Если слово "металлическая" не важно а важно слово "муфта" то задайте список игнорируемых слов которые удалятся перед анализом
3. "3-М" в данном случае важно или нет?
4. Короче отсеиваете неважное, приводите к одному регистру и ищете точные вхождения, или группируете по заданным символам. Модель выделяете в отдельную строку регуляркой и ищете что бы в искомой строк было 2 совпадения и по слову и по модели.
5. Если слова длинные и есть склонения используете Стеммер Портера, но он плохо работает с короткими словами.
Всё.

Пример:
Муфта металлическая 3-М
Удаляем "металлическая" и приводим к 1 регистру стало: "муфта 3-м" разбираем пробелом на 2 строки стало: "муфта" и "3-м".
Поиск в цикле:
Строка: "Шайба металлическая 3-М". Приводим регистр, стало "шайба металлическая 3-м" проверяем на "муфта" - нет, проверяем на "3-м" - есть - не подходит, надо что бы и то и то совпадало.
Ну и регулярки юзайте по необходимости

/муфт[а-яё]+/ismu
/[0-9]-м/ismu // найдёт все модели от 0-м до 9-м

Answer 2 · 2015-09-21 14:45:50

Используйте метрики для поиска похожих объектов - ключевые слова Jaccard Similarity, shingling, minhashing. Можно почитать тут infolab.stanford.edu/~ullman/mmds/book.pdf , Глава 3 Finding Similar Items.
По этой книге есть курс на курсере, можно посмотреть видюшки с живыми примерами и объяснениями - https://class.coursera.org/mmds-003 , материал второй недели, как раз стал доступен, я этот курс сейчас прохожу. Ну и по материалам этой же книги, есть курс от Computer Science Center, и там тоже эти вопросы рассматриваются, https://www.lektorium.tv/course/22822 . Но мне этот курс не понравился, как раз когда объяснялась нужная вам тема, девочка явно путалась в объяснениях.

Answer 3 · 2015-09-21 14:45:01

Брать первые 3 символа каждого слова, например "мет" "муф" "3-м" и искать вхождения этих символов по остальному тексту.

Как найти дубликаты записей по смыслу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт