Что такое аудио с точки зрения программы

Question

max_mara @max_mara

Аудио

Что такое аудио с точки зрения программы

Добрый день коллеги,

Работаю над одним очень интересным алгоритмом обработки аудио семплов, но к сожалению алгоритм пока не может найти выражения в программной форме.

Если не сжатое изображение это матрица размером [x, y] где значение координаты цвет в (r,g,b) или чем угодно и уже разные алгоритмы работают с матрицами, делая нужные преобразования, то что такое аудио в не сжатом виде я и ума не приложу.

Предположим, что я пишу программу на C++, которая берет 10-ти секундный отрезок из микрофона, я получаю массив амплитуд. Это ли аудио в не сжатом виде? Массив амплитуд? А как потом сжать это аудио в MP3 или Wav например?

В общем приветствуется любая информация, документации и примеры кода.

Заране спасибо.

Вопрос задан более трёх лет назад
3803 просмотра

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Режиссёр монтажа

8 месяцев

Далее
Яндекс Практикум

Режиссёр монтажа

9 месяцев

Далее
GB (GeekBrains)

Профессия Режиссёр монтажа

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Аудио

+1 ещё

Простой
Пищат сатиллиты от акустики A330U?
- 1 подписчик
- 26 февр.
- 177 просмотров
0

ответов
Аудио

+2 ещё

Простой
Почему могут возникать проблемы с записью звука?
- 1 подписчик
- 25 февр.
- 142 просмотра
1

ответ
Аудио

+1 ещё

Средний
Почему ухудшается звук собеседника при переключении на микрофон веб-камеры?
- 1 подписчик
- 11 февр.
- 157 просмотров
1

ответ
Аудио

Простой
Какой кабель взять для подключения активных колонок?
- 1 подписчик
- 11 февр.
- 193 просмотра
1

ответ
Аудио

+1 ещё

Средний
Передаст ли коаксиальный кабель 5-канальный звук?
- 1 подписчик
- 09 февр.
- 239 просмотров
1

ответ
Аудио

+1 ещё

Средний
Почему постоянно слышны щелчки и посторонние звуки в наушниках Nothing Ear 2 (2024)?
- 1 подписчик
- 05 дек. 2025
- 407 просмотров
1

ответ
Аудио

Простой
Разделение аудио на инструментал и вокал в Logic Pro или где угодно?
- 1 подписчик
- 29 нояб. 2025
- 201 просмотр
1

ответ
Видео

+3 ещё

Средний
Как скачать видеозапись Zoom со второй аудиодорожкой (не той, что по умолчанию)?
- 1 подписчик
- 25 нояб. 2025
- 221 просмотр
2

ответа
Железо

+2 ещё

Средний
Что делать если после поломанных наушников стали некорректно играть и колонки?
- 2 подписчика
- 18 сент. 2025
- 285 просмотров
0

ответов
Аудио

Простой
Как лучше расставить акустику 5.1.4 в домашнем кинотеатре?
- 1 подписчик
- 14 сент. 2025
- 265 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-09-29 12:26:30

Если для простого цветного изображения каждая точка может быть представлена сочетанием трёх основных цветов (каждый из которых имеет разрядность от 0 до какого-то числа, 2^8, 2^12, не важно) то для аудио каждая выборка во времени определяется всего лишь одинм значением — амплитудой (которая, грубо говоря, тоже может принимать значения от 0 до какого-то максимального значения, 2^8, 2^16) Так что музыка в конечном счёте может быть представлена как одномерный массив, каждый элемент в котором соответствует определённому времени; в то время как изображение это трёхмерный массив, каждый элемент которого соответствует определённым координатам х, у.
Можно разложить звук в базис синуса и косинуса применив преобразование Фурье. Тогда звук будет представлен как двумерный массив (амплитуда синуса, амплитуда косинуса) и каждая пара будет соответствовать определённой частоте, а не времени. Или можно разложить в немного другом виде — (амплитуда, фаз).
Также есть другие представления музыки. Они могут быть разложены на разные звуковые дорожки, инструменты. Например, midi файлы, в которых, грубо говоря, хранится информация о том, в какой момент и как долго должна звучать определённая нота для определённого инструмента.

Answer 2 · 2013-09-29 09:10:11

Согласно условию теоремы Котельникова, у аудиосигнала берётся дискретная выборка мгновенных значений параметра (с частотой дискретизации, наверно ты где-то слышал это словосочетание), которая представляет собой вектор (массив). На выходе по нему восстанавливается исходный неприрывный сигнал. В зависимости от формата этот массив сжимается разными способами.

Что такое аудио с точки зрения программы

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт