Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?
Здравствуйте! Есть много записей с диктофона на суде, на которых часть - полезная (разговоры), часть - безполезная (их отсутствие). Мух от котлет вручную на каждом файле отделить очень сложно и долго (а слышать местами громкий стук диктофона - та ещё пытка). Есть ли какие-либо способы (может в звуковых редакторах, например?) не прослушивая всё это посекундно качественно программно пометить на аудио участки, где есть какие-либо голоса? Или не помечать, а вырезать сразу (желательно с пометкой когда и что вырезано на изначальной записи). Или преобразовать аудио в такой вид, что будет лучше слышно только голоса, а остальное уберётся? Вроде бы не такая уж и редкая проблема, но всё что выдают поисковики - это сервисы для получения минусов из музыки - это не совсем то, что нужно. Может быть не только аудио-редакторы, но и сервисы, работающие на основе искусственного интеллекта здесь тоже могут помочь? (пусть даже платные и "заморские"). Или хотя бы актуальные качественные способы "почистить фон" от шумов, чтобы речь было слышно лучше и на спектрограмме она была отчетливее видна?
Во всех аудиоредакторах есть пороговое шумопонижение. Попробуй его. Там еще должны
быть параметры чувствительности по времени срабатывания. Тоесть короткие звуки
(удары диктофона об стол) можно тоже как-то давить хотя я тут точно не уверен.
Из софта я названий не помню. Давно я на такое смотрел. Уж лет 10 прошло. SoundForge? Cubase?
Часть из этого может стоить денег.
Покупать тебе сразу лицензию на Cubase не стоит. Поищи знакомого звуковика с софтом
чтоб попробовать на его десктопе что-то сделать. Будет ли польза - ХЗ. Надо
много пробовать.
У Whisper есть возможность указывать тайм-коды в аудиофайле, где как раз встречается речь - можно будет их брать и кидать в тот же ffmpeg, чтобы автоматически вырезать эти нужные фрагменты из файлов, после чего прослушивать только их, что и было нужно. Спасибо!