Никаких правил нет, речь разбивается на фонемы автоматически, твоя задача написать функцию которой десять разных человек скажут одно и то же слово и функция запомнит его девиации от и до как окно в компараторе (для этого нужно совместить формы чтобы вычленить значущую информацию)..Со следующим словом тоже самое, но при запоминании должны искаться похожие элементы в уже запомненных ранее фонемах, и если они есть то разбивать уже запомненные и использовать их на будующее ..