Есть ли пайтон библиотека распознавания речи с поддержкой формата ogg файлов?

Question

Андрей @OdAs

Начинающий пайтон програмист

Есть ли пайтон библиотека распознавания речи с поддержкой формата ogg файлов?

Нужна библиотека для распознавания речи (или обработки аудио файла ) и вывода содержимого в текст (по типу пайтон библиотеки SpeechRecognizer)
Обязательно что бы библиотека могла работать с файлами формата ogg . Если у кого-то есть идеи , буду рад совету , спасибо)))

Вопрос задан более трёх лет назад
1601 просмотр

Комментировать

Подписаться 3 Средний Комментировать

Решения вопроса 2

25 комментариев

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 3 часа назад
- 58 просмотров
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 4 часа назад
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 5 часов назад
- 61 просмотр
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 6 часов назад
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 77 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 106 просмотров
3

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 73 просмотра
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Answer 1 · 2020-05-12 00:42:17

Потребуется ffmpeg установить из ffmpeg
Распаковать и прописать в PATH

from subprocess import Popen
from speech_recognition import (Recognizer, AudioFile)
from speech_recognition import (UnknownValueError, RequestError)


class SpeechOggAudioFileToText:
    def __init__(self):
        self.recognizer = Recognizer()

    def ogg_to_wav(self, file):
        args = ['ffmpeg','-i', file, 'test.wav']
        process = Popen(args)
        process.wait()
    @property
    def text(self):
        AUDIO_FILE = 'test.wav'
        with AudioFile(AUDIO_FILE) as source:
            audio = self.recognizer.record(source)
        try:
            text = self.recognizer.recognize_google(audio, language='RU')
            return text
        except UnknownValueError:
            print("Не удаётся распознать аудио файл")
        except RequestError as error:
            print("Не удалось запросить результаты: {0}".format(error))

def main():
    speech_ogg = SpeechOggAudioFileToText()
    speech_ogg.ogg_to_wav('test.ogg')
    print(speech_ogg.text)

if __name__ == '__main__':
    main()

Answer 2 · 2020-05-22 00:31:40

Воск, например, вместе с ffmpeg, работать будет без сети:

https://github.com/alphacep/vosk-api/blob/master/p...

from vosk import Model, KaldiRecognizer
import sys
import os
import subprocess

if not os.path.exists("model"):
    print ("Please download the model from https://github.com/alphacep/vosk-api/blob/master/doc/models.md and unpack as 'model' in the current folder.")
    exit (1)

sample_rate=16000
model = Model("model")
rec = KaldiRecognizer(model, sample_rate)

process = subprocess.Popen(['ffmpeg', '-loglevel', 'quiet', '-i',
                            sys.argv[1],
                            '-ar', str(sample_rate) , '-ac', '1', '-f', 's16le', '-'],
                            stdout=subprocess.PIPE)

while True:
    data = process.stdout.read(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

print(rec.FinalResult())

Answer 3 · 2020-05-11 23:28:36

Я не знаю библиотеки разпознования речи с поддержкой .ogg, но возможно я смогу помочь. В Python можно конвертировать .ogg в .wav и уже использовать .wav для Speech to Text.

import soundfile
data, samplerate = soundfile.read('yourfile.ogg')
soundfile.write('newfile.wav', data, samplerate)
data, samplerate = soundfile.read('newfile.wav')

Есть ли пайтон библиотека распознавания речи с поддержкой формата ogg файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт