@alex-lin-coder

Как разработать алгоритм который выберет для каждой организации базы Х из нескольких гипотез только одну наилучшую?

Здравствуйте.

Необходима ваша помощь. В каком направлении читать, изучать и пробовать.
Задача следующая:
Есть csv-файл с данными в котором собраны гипотезы о соответствии данных об организациях базы Х и данных об организациях из другого источника. В файле несколько столбцов (id, name, address, r_id, r_name, r_addrees). Приставка 'r_' это данные об организациях из другого источника.
Как я понимаю, необходимо использовать столбцы name и address. Id никак не влияет на результат.
Рассматриваю библиотеку "Fuzzy Wuzzy" для решения данной задачи или есть другие варианты?

UPD:
Задача решена. Как и предполагал, в этом мне помогла библиотека Fuzzy Wuzzy. Для более быстрой обработки используйте python-Levenshtein.
Подробное описание моего решения на моей странице .
  • Вопрос задан
  • 230 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
https://habrahabr.ru/post/106207/ и сопутствующие статьи там же, их около 5-8 штук
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы