'Низкоуровневое' распознавание речи (звуки)?

Question

rPman @rPman

'Низкоуровневое' распознавание речи (звуки)?

Я не сильно глубоко копался, но если я верно понимаю, готовые решения по voice recognition берут на себя все, отдавая пользователю только готовый текст, к сожалению, с задержкой (и тем более только после получения всей фразы).

Но возможно ли получить поток распознанных звуков (даже не букв) — транскрипцию, в реальном времени? И самое главное, снабженную 'посимвольно' метками времени и такими свойствами как тембр, тон, и даже языковую принадлежность (или какой-либо параметр, который позволит определить, из какой группы используется транскрипция) и др.

Естественно я говорю про offline библиотеки и фреймворки. Какие это позволяют и в каких пределах? Конечно opensource и кроссплатформенность — рекомендуется.

Платные решения тоже возможны, но не хотелось бы 'приобретать самолет с аэровокзалом, чтобы ездить за хлебом на соседней улице'.

Вопрос задан более трёх лет назад
5295 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Фреймворки

Простой
Какой яп и фреймворк выбрать для создания сервера?
- 1 подписчик
- 18 нояб.
- 167 просмотров
4

ответа
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 199 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 98 просмотров
1

ответ
Машинный перевод с одного языка на другой

+1 ещё

Простой
Надёжный распознаватель речи в текст на разных языках?
- 2 подписчика
- 06 мая
- 1179 просмотров
2

ответа
HTML

+4 ещё

Средний
Какие принципы нужно соблюдать при разработке фреймворков по типу Bootstrap/Tabler, UIKit и прочих?
- 1 подписчик
- 17 апр.
- 194 просмотра
4

ответа
Windows

+1 ещё

Простой
Как на компе с виндой набивать голосом текст на русском языке, с качеством не хуже чем у клавиатуры gboard для Android?
- 1 подписчик
- 03 мар.
- 240 просмотров
2

ответа
Windows

+1 ещё

Простой
Насколько хороша Cortana встроенная в Win11 для распознавания русской речи?
- 1 подписчик
- 12 февр.
- 187 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Какие есть высокоуровневые компонентные javascript фреймворки?
- 2 подписчика
- 19 дек. 2024
- 231 просмотр
1

ответ
C++

+2 ещё

Простой
Как обучить акустическую модель?
- 2 подписчика
- 18 дек. 2024
- 158 просмотров
0

ответов
Нейронные сети

+1 ещё

Сложный
Какой использовать стек для создания полностью локального STT-LLM-TTS русско-английского голосового ассистента?
- 2 подписчика
- 11 дек. 2024
- 1349 просмотров
2

ответа
Показать ещё Загружается…

Фронтенд разработчик (Frontend developer)

Айдис

от 100 000 ₽

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Answer 1 · 2013-07-19 08:08:36

Возможно, вам вот указали sphinx, читайте про него. Есть версия для джавы (sphinx4), есть — для C (poketsphinx).

Но.

Дело в том, что сама схема распознавания речи основана на скрытых марковских моделях (HMM).

Вот так работает sphinx: вначале происходит обработка звука (фильтрация, получение кепстра), потом из этого кепстра извлекаются особенности (features) — в итоге имеем поток, если не ошибаюсь, 13-мерных feature vectors с частотой 100 Гц. Вот векторы этого потока соотносятся с конкретными звуками — либо там будет переходный процесс, связанный с согласным, либо — много похожих векторов подряд — тянущийся гласный звук.

Проблема тут в том, что этот поток очень грязный в смысле качества информации. Что там за особенности извлекли — одному Дану Журафски известно. Поток указанный обычно потом направляется в HMM, которая знает именно слова, в смысле — какие звуки обычно идут за какими и т. д., и на основании этих знаний предполагает, что на самом деле должно было получиться на выходе (что «имелось ввиду»). Я плохо представляю себе, как можно что-то делать без фильтрации с HMM.

Answer 2 · 2013-07-18 13:53:00

Копайте в сторону cmu sphinx. На сколько я помню, там можно было получить список фонем на выходе без дальнейшего декодинга. На сколько это риалтайм судить не берусь

'Низкоуровневое' распознавание речи (звуки)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт