Как реализовать автоопределение интервалов фраз в аудио книге?
Как автоматически определить интервалы фраз (секунды начала-конца) в аудиокниге (нет фоновых звуков, только речь и тишина). Не нашёл такой функции в существующем софте для создания субтитров. На английском языке по запросам: "audio segmentation" , "speach activity" и подобным, тоже не нашёл ничего особенно полезного.
Если придётся реализовать этот алгоритм, в какой среде лучше это делать? Нужен доступ к громкости звука и наличии звукового сигнала в каждый момент времени, думаю. И тогда, задав параметры паузы между словами (уровень тишины и её длительность), можно будет автоматом определить тайминг каждой отдельной фразы. Какая среда удобнее для реализации такого?