Как перевести аудио в текст?

Question

s1veme @aleksegolubev

Python

Как перевести аудио в текст?

Пытаюсь перевести аудио в формате ogg в текст, перепробовал пару библиотек, но все выдавали ошибки.

speech_recognition - не принимает формат ogg.
ftransc - не работает на windows, но вроде бы спокойно работает на Linux - не подходит

Какую библиотеку можно использовать для перевода аудио в текст, формат аудио - ogg.
Заранее спасибо, буду благодарен, если сразу дадите статью или документацию.

Вопрос задан более трёх лет назад
758 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

2 комментария

s1veme @aleksegolubev Автор вопроса

Не работает. Такое вроде бы только на Linux возможно.

Написано более трёх лет назад
Alex F @delvin-fil

s1veme,
SoundFile может читать и записывать звуковые файлы. Чтение/запись файлов поддерживается через libsndfile - бесплатную кроссплатформенную библиотеку с открытым исходным кодом (LGPL) для чтения и записи множества различных форматов звуковых файлов с семплами, которые работают на многих платформах, включая Windows, OS X и Unix. Доступ к нему осуществляется через CFFI, который является интерфейсом внешней функции для Python, вызывающего код C. CFFI поддерживается для CPython 2.6+, 3.x и PyPy 2.0+. SoundFile представляет аудиоданные в виде массивов NumPy.

Так что и под виндой

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 12 часов назад
- 50 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- вчера
- 95 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 2 подписчика
- 18 дек.
- 178 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 216 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 73 просмотра
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 194 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 220 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 245 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 239 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Имхо локальные библиотеки не будут работать так хорошо, как распознавание на сервисах яндекса и гугля. У обоих, насколько помню, до определённого объёма это бесплатно. Но нужно также создавать учётную запись на их вычислительных платформах и вводить реквизиты карточки.

Answer 1 · 2020-09-16 17:59:08

ну альтренативы https://pypi.org/project/SpeechRecognition/ нет
разве что каждая обвязка к API отдельно )

так что конверти звук в нужный формат и вперед

Answer 2 · 2020-09-16 17:59:52

Как вариант попробовать перевести ogg в нужный формат:

import soundfile as sf   #   pip install pysoundfile

data, samplerate = sf.read('existing_file.ogg')
sf.write('new_file.wav', data, samplerate)

Answer 3 · 2020-09-17 06:58:00

import speech_recognition as sr
sinput = '/tmp/test.wav'
r = sr.Recognizer()
harvard = sr.AudioFile(sinput)
with harvard as source:
	audio = r.record(source)
out = r.recognize_google(audio)
print (out)

ну так себе распознание
а теперь другой голос и медленнее

уже лучше
но для фильмов/песен совершенно не годится:)

Как перевести аудио в текст?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт