Задать вопрос

Каким методом или алгоритмом можно гармонизовать/нормализовать справочник?

Какие можно алгоритмы и методы использовать для решения подобной задачи:

Есть один справочник номенклатурных позиций от разных подразделений одной компании. Причем в разных редакциях справочника(разные подразделения) имеются одинаковые строки с разной детализацией строки.
Например, в одном справочнике есть запись вида Болт М6 ГОСТ 123-34.... а в другом Болт М6 0.45 0.8ю..., в третьем Болт М6 0,4..08мм ...
Это строки описывают один и тот же товар с разной степенью детальности. Необходимо найти дубли и дополнить строку всем атрибутивным составом, фигурирующем во всех редакциях справочника.
В примере приведен упрощенный вариант, в реальности "одинаковые" строки могут выглядеть как:
Труба б/ш г/д 89х3НД 14-3-460
Труба котельная горячедеформированная В 20 ТУ 14-3-460
  • Вопрос задан
  • 489 просмотров
Подписаться 4 Оценить Комментировать
Ответ пользователя alexxandr К ответам на вопрос (3)
@alexxandr
you'll see in memory only 0xDEADFACE
любым методом результат будет неконсистентен.
всё равно вручную обрабатывать придется

можно искать вектора расстояний для различных названий товаров, те, что выше некоторого значения - скорее всего один товар (элементом вектора, как несложно догадаться, будет слово)
Ответ написан
Комментировать