Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Question

Андрей @soundie

Преподаватель, программист, писатель

Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Здравствуйте! Есть много записей с диктофона на суде, на которых часть - полезная (разговоры), часть - безполезная (их отсутствие). Мух от котлет вручную на каждом файле отделить очень сложно и долго (а слышать местами громкий стук диктофона - та ещё пытка). Есть ли какие-либо способы (может в звуковых редакторах, например?) не прослушивая всё это посекундно качественно программно пометить на аудио участки, где есть какие-либо голоса? Или не помечать, а вырезать сразу (желательно с пометкой когда и что вырезано на изначальной записи). Или преобразовать аудио в такой вид, что будет лучше слышно только голоса, а остальное уберётся? Вроде бы не такая уж и редкая проблема, но всё что выдают поисковики - это сервисы для получения минусов из музыки - это не совсем то, что нужно. Может быть не только аудио-редакторы, но и сервисы, работающие на основе искусственного интеллекта здесь тоже могут помочь? (пусть даже платные и "заморские"). Или хотя бы актуальные качественные способы "почистить фон" от шумов, чтобы речь было слышно лучше и на спектрограмме она была отчетливее видна?

Вопрос задан более года назад
416 просмотров

1 комментарий

Подписаться 3 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Режиссёр монтажа

8 месяцев

Далее
Skillbox

Основы съёмки и монтажа

5 месяцев

Далее
Яндекс Практикум

Режиссёр монтажа

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 197 просмотров
1

ответ
Искусственный интеллект

Простой
Как сделать синхронный перевод с английского на русский, локально?
- 3 подписчика
- 06 дек.
- 275 просмотров
1

ответ
Аудио

+1 ещё

Средний
Почему постоянно слышны щелчки и посторонние звуки в наушниках Nothing Ear 2 (2024)?
- 1 подписчик
- 05 дек.
- 117 просмотров
1

ответ
Искусственный интеллект

Простой
Сравнение стилей двух разных текстов: один или разные люди их писали или вообще ИИ?
- 2 подписчика
- 05 дек.
- 179 просмотров
1

ответ
Аудио

Простой
Разделение аудио на инструментал и вокал в Logic Pro или где угодно?
- 1 подписчик
- 29 нояб.
- 81 просмотр
0

ответов
Видео

+3 ещё

Средний
Как скачать видеозапись Zoom со второй аудиодорожкой (не той, что по умолчанию)?
- 1 подписчик
- 25 нояб.
- 144 просмотра
2

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 431 просмотр
3

ответа
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 550 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 269 просмотров
2

ответа
Обработка звука

Простой
Какое ПО использовать для озвучки?
- 3 подписчика
- 23 окт.
- 255 просмотров
2

ответа
Показать ещё Загружается…

SEO-специалист (Сеть образовательных проектов)

Профессиональный Стандарт • Москва

До 100 000 ₽

Frontend Lead (Vue3)

Cobalt Lab

от 3 700 до 5 500 $

Java-разработчик (Spring Boot) для аудита проекта

OneLink

До 15 000 ₽

Во всех аудиоредакторах есть пороговое шумопонижение. Попробуй его. Там еще должны
быть параметры чувствительности по времени срабатывания. Тоесть короткие звуки
(удары диктофона об стол) можно тоже как-то давить хотя я тут точно не уверен.

Из софта я названий не помню. Давно я на такое смотрел. Уж лет 10 прошло. SoundForge? Cubase?
Часть из этого может стоить денег.

Покупать тебе сразу лицензию на Cubase не стоит. Поищи знакомого звуковика с софтом
чтоб попробовать на его десктопе что-то сделать. Будет ли польза - ХЗ. Надо
много пробовать.

Answer 1 · 2024-07-30 01:04:14

В общем то, что вам нужно в целом умеет whisper, если со скриптами/консолью работать умеете, то можно найти по запросу whisper gui(gui если нужно графическое приложение), например https://github.com/Pikurrot/whisper-gui или https://grisk.itch.io/whisper-gui (тут хз насколько это безопасно скачивать). Можно с другой стороны пойти и сделать так, чтобы удалялась тишина в видео/аудио https://github.com/lagmoellertim/unsilence, гуглить silence remover.

Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт