Для работы с аудио есть ответ -
Trim an Audio File(.wav,.mp3)
Сложнее всего это - "чтобы было понятно на каком слове файл закончился и начался". Тут уже распознавание речи.
Или резать на ближайшей тишине по заданному участку, или реально разбирать на слова, с указанием start/end position для каждого слова в звуковом потоке.
Если в записи тишина и голос, то по тишине резать.
Если есть фоновый шум, музыка и что угодно другое, но не слова, то сложнее.
Распознавать можно не весь кусок а до первого слова в начале куска и в конце.
Вопрос с ответом по распознаванию -
Voice/Speech to text.