Пока что у меня в голове родилось:
"Сплитуем" регуляркой [a-z\s-]+
Если вышло >= 3х элементов - последний отсекаем(потому как скорее всего это суффикс), отсекаем первый (скорее всего префикс). При этом порядке 99% уверенность что все хорошо.
Если >=4 то тут есть проблемы с префиксами из нескольких слов(SW:AV:Vasilysk:Papka Test -> тут нужно только Vasilysk).
Короче сделаю выборку из 1000 строк и посмотрю все ли будет хорошо.