Какой алгоритм поиска дублей посоветуете Sql server?

Question

bearpaw @bearpaw

SQL Server

Какой алгоритм поиска дублей посоветуете Sql server?

Здравствуйте!
Есть некоторая таблица с наименованиями номенклатур . Около 70К записей.
Необходимо что бы каждая вновь вносимая номенклатура проверялась на уникальность.
Иногда сотрудники пишут вместо русской х (с) латинскую х (c).
Пробовали сходство Джаро — Винклера , расстояние Дамерау-Левенштейна (в виде функций на MS SQL Server). Это все работает и даже идеально работает. Кроме одного - время. Необходимо что бы на операцию уходило 10-20 секунд, а данные алгоритмы работаю от 2-3 минуты до 10-15. Причем время возрастает логарифмически в зависимости от длины нового слова, т.к. вычисляется параметр для каждой строки. Нормализация строки поиска (убираем пробелы, запяты, точки и т.п.) дает выигрыш 3-4 секунды.
Может кто-то знает или видел быстрые алгоритмы поиска сходства? Например на основе NGram, или использовании хэшей. В принципе длина строки имеет фиксированный размер не более 150 символов. Может как то разложить существующие записи так что бы по ним осуществлялся быстрый поиск

Вопрос задан более трёх лет назад
657 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ответы на вопрос 4

3 комментария

1 комментарий

3 комментария

bearpaw @bearpaw Автор вопроса

3-5-10-20 секунд это приемлемо.
не приемлемо до получаса держать.

Написано более трёх лет назад
d-stream @d-stream

bearpaw, то есть поиск похожих на ОДИН образец занимает столько времени??????

Написано более трёх лет назад
bearpaw @bearpaw Автор вопроса

d-stream, для каждой новой записи , необходимо провести проверку со всеми существующими записями и получить похожую ~ 90% соответствия, ну либо не получить.
Т.е. каждый раз выполняется расчет по новой.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+3 ещё

Простой
Не удается подключить сервер к консоли администрирования 1С. В чем может быть проблема?
- 3 подписчика
- 26 сент.
- 217 просмотров
3

ответа
SQL Server

+2 ещё

Средний
Может ли тормозить 1С из-за отключенного кэширования записи на диск на сервере с 1С+MSSQL?
- 5 подписчиков
- 20 авг.
- 477 просмотров
3

ответа
1С

+1 ещё

Средний
Как правильно протестировать регламентные задания для обслуживания баз данный MSSQL?
- 2 подписчика
- 20 авг.
- 194 просмотра
1

ответ
SQL Server

Средний
Возможно ли в UPDATE «видеть» результат обновления предыдущих строк?
- 2 подписчика
- 01 авг.
- 125 просмотров
1

ответ
SQL Server

+2 ещё

Простой
Как создать связанный Oracle сервер с Ms SQL server?
- 1 подписчик
- 05 июн.
- 119 просмотров
0

ответов
SQL Server

+1 ещё

Простой
Как создать XML определенного формата из таблицы с помощью FOR XML PATH?
- 2 подписчика
- 14 мая
- 87 просмотров
0

ответов
1С

+1 ещё

Простой
Как обойти ошибку создания уникального индекса?
- 1 подписчик
- 06 мая
- 164 просмотра
4

ответа
PHP

+1 ещё

Простой
Как добавить данные в бд с помощью php sqlsrv?
- 1 подписчик
- 18 апр.
- 186 просмотров
2

ответа
SQL Server

+1 ещё

Простой
T-SQL не видит пользовательский тип-таблицу. Каких прав/разрешений не хватает?
- 1 подписчик
- 16 мар.
- 50 просмотров
0

ответов
SQL Server

Простой
Как оптимизировать память?
- 3 подписчика
- 26 февр.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Art Director (TV, Youtube, Реклама)

SDL • Москва

от 190 000 ₽

Системный аналитик (Мои Сервисы)

Сбер • Москва

от 300 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Стесняюсь спросить, но если заведомо известно, что буква должна быть русской, почему нельзя тупо до ввода ее в базу делать replace?
Артём Каретников, нормализация делается . но если человек выбросит букву из слова или поменяет местами (такое тоже бывает), то найти 100% соответствия не возможно.

Answer 1 · 2017-11-30 08:13:07

Александр Таратин @Taraflex

Ищу работу. Контакты в профиле.

Наверное читали уже, но вдруг нет
https://habrahabr.ru/post/342434/

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2017-11-30 08:51:09

логирование добавления записей и неминуемое наказание для самый отъявленных рукожуев к вашим услугам.
Но нужно будет реализовать отчёт который раз в день/неделю/месяц будет шерстить наименования на дубляжи

Answer 3 · 2017-11-30 11:54:30

В момент создания одиночной позиции - вполне реально потратить некоторое время на проверку.
То есть поискать в 100500 записях похожие на дубликаты записи - это может занять часы, а вот при создании карточки товара - что собственно редкая и ответственная операция (доступная не каждому) - подождать 3-5-10 сек проверки - вполне приемлемо.

Answer 4 · 2017-12-02 13:27:17

Как вариант. Можно привести сначала строки к какому-то "нормализованному виду". Например, удалить всё кроме букв, удалить места с наиболее вероятными ошибками (буквы а, о), заменить всю кириллицу на латиницу и т.п. и затем положить это всё в в словарь, где каждому такому "хэшу" будет соответствовать 5-10 похожих наименований. При добавлении новой записи сначала вычислять "хэш", затем по соответствующим ему 5-10-15ти записям пройтись нормальной функцией поиска соответствия. Идея в том, чтобы не шерстить все 70к каждый раз, более 90% из них очевидно даже близко не похожи. Собственно нужно просто подобрать способ как отфильтровать эти 90+% заранее.

Какой алгоритм поиска дублей посоветуете Sql server?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт