alekseev_ap
@alekseev_ap
Свободный разработчик

Алгоритмы определения смены голосов в диалогах. Есть ли они? И если есть, то в чём их суть?

Есть аудиофайлы с диалогами людей. Нужно их (людей) идентифицировать, но для этого с начала, хорошо бы определить границы речи каждого оратора. Не конкретно Вася, Коля, Петя, а хотя бы так: на 20-й секунде поменялся оратор, на 34 секунде поменялся оратор, на 45 секунде поменялся оратор и т.д.
Есть ли наработки в этой области?
  • Вопрос задан
  • 201 просмотр
Пригласить эксперта
Ответы на вопрос 2
Alex-rsk
@Alex-rsk
Бэкендер
Да, есть. То, что вам нужно, называется диаризация. Нейросеть Whisper умеет такое делать. Но это даже на GPU занимает время.
Суть, скорее всего в классификации спектров голосов. Те, сначала распознаются слова, потом участки со словами классифицируются по спектру нейросетью. Или численными методами, например, сверткой спектров, но тогда нужны образцы спектра говорящих.
Не копал, если честно, но лично я бы делал так.
Ответ написан
engin
@engin
Engineer Devops
Все голоса между собой отличаются уровнем громкости и частотным спектром от сюда и плясать.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы