@47911

Возможен ли сложный поиск дубликатов?

Здравствуйте. Есть excel файл с инфой вида:
Какие-то колонки = Адрес = какие-то колонки
ххххх = 000000, какая-то ОБЛАСТЬ, Г. неважно, УЛ. 8 сергия радонежского, Д.2, КВ.14 = ххххх
ххххх = 8 сергия радонежского, 2, 1 этаж = ххххх

Как автоматом определять что эти 2 строки по "адресу" - одинаковы?

пример файла

Надо получить все организации с "имя1", но по адресу.
Чтобы глазами пробежаться и удалить дубли. Самое главное их найти. Разовая операция, но по всей таблице с каждой организацией. И плевать что по более сложному адресу не найти, если нашёл по простому адресу(более коротко написанно) - сойдёт - человеку показать эти дубли, чтобы он сам решил. Требуется формула, чтобы пробежаться по 3000 строкам.
  • Вопрос задан
  • 70 просмотров
Пригласить эксперта
Ответы на вопрос 1
@CBET_TbMbI
Полноценно никак. Но можно создать рейтинг похожести:
1. Найти все слова длиннее 2 букв и все цифры в первой ячейке с адресом.
2. Проверить наличие каждого из этих слов и цифр в последующих ячейках.
3. За каждое совпадение повышать паре строк некий рейтинг похожести. Для этого надо иметь некий массив со всеми возможными парами строк.
4. Потом всё тоже самое повторить со второй и всеми последующими ячейками с адресами.
5. Потом как-то выдать этот рейтинг похожести пар (он будет не маленький с кучей ложных срабатываний) и пусть человек его вручную просматривает.

И это ещё не будет учитывать опечаток. Если хочется ул.Радонежского и раднежского считать одной улицей, то придётся ещё внедрять поиск похожих слов с точностью до 1-2 букв.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы