Сначала выполняете это действие:
Записываете на листочек(или в файлик) точное время начала слова и точное время конца слова. Устанавливаете
ffmpeg-python и вырезаете ровно то, что вам нужно.
Можно еще нейросети использовать. Но есть 2 минуса:
1) Они работают еще не достаточно хорошо, даже в крупных компаниях(Siry,Алиса)
2) Вы не разберетесь.