Алгоритмы определения смены голосов в диалогах. Есть ли они? И если есть, то в чём их суть?

Question

Александр Алексеев @alekseev_ap

Свободный разработчик

Алгоритмы

Алгоритмы определения смены голосов в диалогах. Есть ли они? И если есть, то в чём их суть?

Есть аудиофайлы с диалогами людей. Нужно их (людей) идентифицировать, но для этого с начала, хорошо бы определить границы речи каждого оратора. Не конкретно Вася, Коля, Петя, а хотя бы так: на 20-й секунде поменялся оратор, на 34 секунде поменялся оратор, на 45 секунде поменялся оратор и т.д.
Есть ли наработки в этой области?

Вопрос задан более двух лет назад
205 просмотров

2 комментария

Подписаться 2 Сложный 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 315 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 385 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 277 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Возникла мысль что если Вася и Коля начнут переругиваться то границы их речи будет
трудно определить. Скорее всего ни будут частично перекрываться. Такое тоже заходит в ТЗ?
mayton2019, Пока нет, на первом этапе преполагаем разговор джентельменов.

Answer 1 · 2024-07-12 09:57:37

Да, есть. То, что вам нужно, называется диаризация. Нейросеть Whisper умеет такое делать. Но это даже на GPU занимает время.
Суть, скорее всего в классификации спектров голосов. Те, сначала распознаются слова, потом участки со словами классифицируются по спектру нейросетью. Или численными методами, например, сверткой спектров, но тогда нужны образцы спектра говорящих.
Не копал, если честно, но лично я бы делал так.

Answer 2 · 2024-07-18 14:11:00

Александр К @engin

Engineer Devops

Все голоса между собой отличаются уровнем громкости и частотным спектром от сюда и плясать.

Ответ написан более года назад

1 комментарий

Алгоритмы определения смены голосов в диалогах. Есть ли они? И если есть, то в чём их суть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт