Что такое аудио с точки зрения программы

Добрый день коллеги,

Работаю над одним очень интересным алгоритмом обработки аудио семплов, но к сожалению алгоритм пока не может найти выражения в программной форме.

Если не сжатое изображение это матрица размером [x, y] где значение координаты цвет в (r,g,b) или чем угодно и уже разные алгоритмы работают с матрицами, делая нужные преобразования, то что такое аудио в не сжатом виде я и ума не приложу.

Предположим, что я пишу программу на C++, которая берет 10-ти секундный отрезок из микрофона, я получаю массив амплитуд. Это ли аудио в не сжатом виде? Массив амплитуд? А как потом сжать это аудио в MP3 или Wav например?

В общем приветствуется любая информация, документации и примеры кода.

Заране спасибо.
  • Вопрос задан
  • 3772 просмотра
Решения вопроса 1
Teivaz
@Teivaz
Если для простого цветного изображения каждая точка может быть представлена сочетанием трёх основных цветов (каждый из которых имеет разрядность от 0 до какого-то числа, 2^8, 2^12, не важно) то для аудио каждая выборка во времени определяется всего лишь одинм значением — амплитудой (которая, грубо говоря, тоже может принимать значения от 0 до какого-то максимального значения, 2^8, 2^16) Так что музыка в конечном счёте может быть представлена как одномерный массив, каждый элемент в котором соответствует определённому времени; в то время как изображение это трёхмерный массив, каждый элемент которого соответствует определённым координатам х, у.
Можно разложить звук в базис синуса и косинуса применив преобразование Фурье. Тогда звук будет представлен как двумерный массив (амплитуда синуса, амплитуда косинуса) и каждая пара будет соответствовать определённой частоте, а не времени. Или можно разложить в немного другом виде — (амплитуда, фаз).
Также есть другие представления музыки. Они могут быть разложены на разные звуковые дорожки, инструменты. Например, midi файлы, в которых, грубо говоря, хранится информация о том, в какой момент и как долго должна звучать определённая нота для определённого инструмента.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
Finesse
@Finesse
Согласно условию теоремы Котельникова, у аудиосигнала берётся дискретная выборка мгновенных значений параметра (с частотой дискретизации, наверно ты где-то слышал это словосочетание), которая представляет собой вектор (массив). На выходе по нему восстанавливается исходный неприрывный сигнал. В зависимости от формата этот массив сжимается разными способами.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы