Согласен с
alexxandr что без ручной работы всё равно врядли можно обойтись.
Придётся привлекать к нормализации справочника сотрудников.
В целом, в данной задаче стоит производить лексический разбор строк для извлечения атрибутов, определения класса аттрибута (допустим, "14-3-460" - каталоговый индекс наименования).
Можно определить некоторым атрибутам больший приоритет, согласно которым будет определяться наименование.
Для определения дублей наименования - подключить алгоритм
расстояния Левенштейна.
Согласно словарю (который нужно иметь) производить поиск по сокращениям и заменять атрибуты, объединять их в один.
Подключить для решения задачи: нечёткий поиск, нечёткую логику, (вероятностные ?) классификаторы.