Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Question

Андрей @soundie

Преподаватель, программист, писатель

Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Здравствуйте! Есть много записей с диктофона на суде, на которых часть - полезная (разговоры), часть - безполезная (их отсутствие). Мух от котлет вручную на каждом файле отделить очень сложно и долго (а слышать местами громкий стук диктофона - та ещё пытка). Есть ли какие-либо способы (может в звуковых редакторах, например?) не прослушивая всё это посекундно качественно программно пометить на аудио участки, где есть какие-либо голоса? Или не помечать, а вырезать сразу (желательно с пометкой когда и что вырезано на изначальной записи). Или преобразовать аудио в такой вид, что будет лучше слышно только голоса, а остальное уберётся? Вроде бы не такая уж и редкая проблема, но всё что выдают поисковики - это сервисы для получения минусов из музыки - это не совсем то, что нужно. Может быть не только аудио-редакторы, но и сервисы, работающие на основе искусственного интеллекта здесь тоже могут помочь? (пусть даже платные и "заморские"). Или хотя бы актуальные качественные способы "почистить фон" от шумов, чтобы речь было слышно лучше и на спектрограмме она была отчетливее видна?

Вопрос задан более года назад
403 просмотра

1 комментарий

Подписаться 3 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Основы съёмки и монтажа

5 месяцев

Далее
Бруноям

Режиссёр видеомонтажа

7 месяцев

Далее
Нетология

Режиссёр монтажа

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 337 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 175 просмотров
2

ответа
Обработка звука

Простой
Какое ПО использовать для озвучки?
- 3 подписчика
- 23 окт.
- 214 просмотров
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 328 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 723 просмотра
3

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 1 подписчик
- 01 окт.
- 562 просмотра
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 103 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 161 просмотр
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 191 просмотр
1

ответ
Железо

+2 ещё

Средний
Что делать если после поломанных наушников стали некорректно играть и колонки?
- 2 подписчика
- 18 сент.
- 242 просмотра
0

ответов
Показать ещё Загружается…

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

SEO специалист

W3Promo • Москва

от 45 000 до 80 000 ₽

Технический руководитель/Technical Lead(государственная информационная система)

ЛАНИТ • Москва

До 400 000 ₽

Во всех аудиоредакторах есть пороговое шумопонижение. Попробуй его. Там еще должны
быть параметры чувствительности по времени срабатывания. Тоесть короткие звуки
(удары диктофона об стол) можно тоже как-то давить хотя я тут точно не уверен.

Из софта я названий не помню. Давно я на такое смотрел. Уж лет 10 прошло. SoundForge? Cubase?
Часть из этого может стоить денег.

Покупать тебе сразу лицензию на Cubase не стоит. Поищи знакомого звуковика с софтом
чтоб попробовать на его десктопе что-то сделать. Будет ли польза - ХЗ. Надо
много пробовать.

Answer 1 · 2024-07-30 01:04:14

В общем то, что вам нужно в целом умеет whisper, если со скриптами/консолью работать умеете, то можно найти по запросу whisper gui(gui если нужно графическое приложение), например https://github.com/Pikurrot/whisper-gui или https://grisk.itch.io/whisper-gui (тут хз насколько это безопасно скачивать). Можно с другой стороны пойти и сделать так, чтобы удалялась тишина в видео/аудио https://github.com/lagmoellertim/unsilence, гуглить silence remover.

Как извлечь только речь из множества аудиозаписей не вручную, а автоматически?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт