Детектирование голоса в (телефонном) аудио файле и вырезание, какую библиотеку использовать в Python?

Question

xmaster83 @xmaster83

Детектирование голоса в (телефонном) аудио файле и вырезание, какую библиотеку использовать в Python?

Есть задача , телефонного разговора вырезать голос в отдельные маленькие wav
По канала звонящий и принимающий я уже разбил, теперь вопрос как вырезать остальные отрезки голоса , есть ли библиотека на питоне работающая с этим ?

Спасибо

Вопрос задан более трёх лет назад
3410 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-02-05 11:17:34

Я это делал без библиотеки. Для этого можно использовать энергию сигнала в окошке, и если энергия превышает определенный порог, то значит в окошке есть голос. В телефонном аудиофайле часто присутствует шум, поэтому есть смысл сначала "выровнять" сигнал в окошке - т.е. отнять среднее от каждого элемента.

Примерно так:

window = signal[i:(i+win_len)]
energy = ((window - window.mean()) ** 2).sum()
voice = energy > threshold

Алгоритм - автомат с двумя состояниями "тишина" и "голос":

Заводим очередь с макс. вместимостью t
Начинаем с состояния "тишина"
Проверяем, есть ли голос в окошке
Если есть, то создаем новый файл, берем все данные из очереди, добавляем в файл, переходим в состояние "голос"
Нет - добавляем данные из окошка в очередь
В состоянии "голос" записываем текущее окошко в файл, пока не встретим t подряд идущих окошек с тишиной - в этом случае сохраняем файл и переходим в "тишину" опять

Можно переходить в режим "голос" только после того, как встретилось несколько подряд идущих окошек с голосом, чтобы не выдергивать из записи всякие щелчки и прочие артефакты.

В моем случае t = 10 и ширина окошка 512 давали самые лучшие результаты, но в вашем случае результат может отличаться. Уровень тишины, который я использовал, я точно не помню. Можно просто взять тишину и посмотреть, какая у нее энергия и сравнить с энергией голоса, и взять среднее значение между ними.

Детектирование голоса в (телефонном) аудио файле и вырезание, какую библиотеку использовать в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт