Данная задача называется - транскрибация
Полной автоматизации наверное не существует (но точно есть куча софта для облегчения процесса) либо она должна стоить как самолет или ракета, так как в конечном счете задача упирается в распознавание речи. В мире не так много компаний, которые успешно занимаются анализом речи и свои алгоритмы они налево направо не раздают...
Открытые (бесплатные) модели по анаглийскому языку помню были у мозиллы проект
DeepSpeech, вполне возможно что есть еще, начни гуглить от сюда, я помню видел статьи от какой то компании на хабре которая раскрутила их алгоритмы и работает с русским языком.
p.s. php тут полностью не причем, работу с самим медиафайлом лучше проводить в чем то специализированном, я рекомендую ffmpeg, консольные утилиты, огромное количество алгоритмов, возможно даже твоя задача там встретится (хотя бы по простому по паузам)