Какой алгоритм лучше использовать для определения схожести строк?
Здравствуйте.
Суть задачи: есть таблица Excel. В столбцах А и В - названия спортивных команд (они не идентичны, но похожи)
Надо проанализировать эти два столбца, и удалить те значения (в одном либо другом столбце), для которого нет пары.
Пример:
столбец A
Манчестер - Аякс
Бундеслига - Неаполи
столбец В
Манчестер (U 17) - Аякс (U 17)
Динамо - Черноморец
В этом случае надо удалить пары "Бундеслига - Неаполи" и "Динамо - Черноморец".
Я вижу тут два варианта - либо сравнивать их как строки через алгоритм Левенштейна, либо разбивать строки по пробелам на элементы массива, и сравнивать их "пересечения" через алгоритм Танимото.
Excel - как пример. Конечная реализация будет либо на PHP либо на NodeJS.