Если для простого цветного изображения каждая точка может быть представлена сочетанием трёх основных цветов (каждый из которых имеет разрядность от 0 до какого-то числа, 2^8, 2^12, не важно) то для аудио каждая выборка во времени определяется всего лишь одинм значением — амплитудой (которая, грубо говоря, тоже может принимать значения от 0 до какого-то максимального значения, 2^8, 2^16) Так что музыка в конечном счёте может быть представлена как одномерный массив, каждый элемент в котором соответствует определённому времени; в то время как изображение это трёхмерный массив, каждый элемент которого соответствует определённым координатам х, у.
Можно разложить звук в базис синуса и косинуса применив преобразование Фурье. Тогда звук будет представлен как двумерный массив (амплитуда синуса, амплитуда косинуса) и каждая пара будет соответствовать определённой частоте, а не времени. Или можно разложить в немного другом виде — (амплитуда, фаз).
Также есть другие представления музыки. Они могут быть разложены на разные звуковые дорожки, инструменты. Например, midi файлы, в которых, грубо говоря, хранится информация о том, в какой момент и как долго должна звучать определённая нота для определённого инструмента.