Здравствуйте.
Необходима ваша помощь. В каком направлении читать, изучать и пробовать.
Задача следующая:
Есть csv-файл с данными в котором собраны гипотезы о соответствии данных об организациях базы Х и данных об организациях из другого источника. В файле несколько столбцов (id, name, address, r_id, r_name, r_addrees). Приставка 'r_' это данные об организациях из другого источника.
Как я понимаю, необходимо использовать столбцы name и address. Id никак не влияет на результат.
Рассматриваю библиотеку "Fuzzy Wuzzy" для решения данной задачи или есть другие варианты?
UPD:
Задача решена. Как и предполагал, в этом мне помогла библиотека Fuzzy Wuzzy. Для более быстрой обработки используйте python-Levenshtein.
Подробное описание моего решения на моей
странице .