soundie
@soundie
Преподаватель, программист, писатель

Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Здравствуйте! Есть много записей с диктофона на суде, на которых часть - полезная (разговоры), часть - безполезная (их отсутствие). Мух от котлет вручную на каждом файле отделить очень сложно и долго (а слышать местами громкий стук диктофона - та ещё пытка). Есть ли какие-либо способы (может в звуковых редакторах, например?) не прослушивая всё это посекундно качественно программно пометить на аудио участки, где есть какие-либо голоса? Или не помечать, а вырезать сразу (желательно с пометкой когда и что вырезано на изначальной записи). Или преобразовать аудио в такой вид, что будет лучше слышно только голоса, а остальное уберётся? Вроде бы не такая уж и редкая проблема, но всё что выдают поисковики - это сервисы для получения минусов из музыки - это не совсем то, что нужно. Может быть не только аудио-редакторы, но и сервисы, работающие на основе искусственного интеллекта здесь тоже могут помочь? (пусть даже платные и "заморские"). Или хотя бы актуальные качественные способы "почистить фон" от шумов, чтобы речь было слышно лучше и на спектрограмме она была отчетливее видна?
  • Вопрос задан
  • 267 просмотров
Решения вопроса 1
@12rbah
В общем то, что вам нужно в целом умеет whisper, если со скриптами/консолью работать умеете, то можно найти по запросу whisper gui(gui если нужно графическое приложение), например https://github.com/Pikurrot/whisper-gui или https://grisk.itch.io/whisper-gui (тут хз насколько это безопасно скачивать). Можно с другой стороны пойти и сделать так, чтобы удалялась тишина в видео/аудио https://github.com/lagmoellertim/unsilence, гуглить silence remover.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы