Есть список стоп-слов, которые не нужно учитывать при сравнении предложений, пример:
'концерт'
'группа'
'группы'
'альбом'
'альбома'
'песни'
'презентация'
При сравнении названий концертов, нужно чтобы вот такие фразы можно было идентифицировать как один и тот же концерт:
'Группа ZebraHead'
'Песни группы ZebraHead'
'ZebraHead'
'Концерт группы ZebraHead'
'ZebraHead. Презентация альбома'
В таблице тысячи названий концертов и среди них есть похожие названия, которые нужно выявить и объединить присвоив этим строкам group_id (наименьший идентификатор в группе).
Пробовал функцию Левенштейна, но в таблице много строк и она работает очень медленно, а иногда просто зависает.