Как порезать аудио файл на куски примерно одного размера с разрезами в местах паузы в речи?

Question

theurs @theurs

Python

Как порезать аудио файл на куски примерно одного размера с разрезами в местах паузы в речи?

Надо транскрибировать большие аудиофайлы нейросеткой у нее ограниченный размер который можно подать на вход. Для этого надо нарезать файл на части но не тупо по секундам а так что бы в разрез попала пауза в речи, любая тишина.

Попробовал использовать для этого pydub но похоже что он не может работать с большими файлами. 3 часовая запись приводит его к ошибке переполнения памяти.
Небольшие записи режутся но медленно очень.

Может есть еще что-нибудь.

from pydub import AudioSegment 
from pydub.silence import split_on_silence 

def silence_based_conversion(path = "1.wav"):
    chink_size = 50
    output_name = "output"

    # тут стабильно умирает на больших файлах, сжатый звук не помогает
    song = AudioSegment.from_wav(path)
    #song = AudioSegment.from_ogg(path)

    # это работает медленно даже на не очень больших записях
    chunks = split_on_silence(song,
        min_silence_len = 500,
        silence_thresh = -16
    )

    i = 0
    for chunk in chunks:
....

Вопрос задан более года назад
122 просмотра

1 комментарий

Подписаться 1 Средний 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- вчера
- 91 просмотр
2

ответа
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- 26 сент.
- 271 просмотр
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 236 просмотров
1

ответ
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 327 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 172 просмотра
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 193 просмотра
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 439 просмотров
4

ответа
Python

+3 ещё

Простой
Есть решение сборки Python в Exe с библиотекой Opencv?
- 1 подписчик
- 09 сент.
- 170 просмотров
0

ответов
Python

Простой
Как получить из URL имя страницы?
- 1 подписчик
- 08 сент.
- 199 просмотров
2

ответа
Python

+1 ещё

Простой
Почему у Python проблемы с форматированием?
- 1 подписчик
- 08 сент.
- 231 просмотр
1

ответ
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Возможно pydub.silence не оптимально использует память.

Что он кладет в память - чорт его знает. Но если это разновидность исходных данных
в виде спектров, векторов, матриц или что-то подобное то надо проредить эти данные.

Например - понизить число каналов и семплирование файла.

44khz/16bit / Stereo => 11khz / 8Bit / Mono

Answer 1 · 2024-06-05 10:43:51

theurs @theurs Автор вопроса

нашел альтернативный вариант

ffmpeg -i «input.mov» -af silencedetect=noise=-30dB:d=0.5 -f null - 2> vol.txt

Ответ написан более года назад

Комментировать

Как порезать аудио файл на куски примерно одного размера с разрезами в местах паузы в речи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт