Как сложить оцифрованные аудиосигналы?

Question

Joysi @Joysi

Как сложить оцифрованные аудиосигналы?

День добрый!
Генерирую звук на определенной частоте (неважно, в виде синусоиды, пилы, треугольника) в виде массива значений double (1-максимальная амплитуда). Проигрывается норм.
Если сгенерировать несколько таких звуков на разной частоте, сложить их, обработать , то:
1) сложение с дальнейшей линейной апроксимацией в максимальную амплитуду 1 (combineWithNormalize) будет звучать корректно, но очень тихо....
2) сложение с линейной (combineWithLinearDynaRangeCompression) компрессией или логарифмической(combineWithLnDynaRangeCompression) приводят к хрипам (игрался с пороговым значением threshold).

Собственно вопрос - возможно я последующие шаги пропустил, или еще что. Что я делаю не так?
Пробовал и стартовые минисмещения добавлять при генерации исходных сигналов, чтобы минизировать появление пиков при кратных частотах и т.п.
Какие вообще существуют приемлимые алгоритмы сложения аудиосигналов из нескольких исходных с формированием итогового файла (а не онлайн игра громкостью), который например в синтезаторах используется?
Чтобы без хрипов, и в то же время не очень тихо. Может порекомендуете хорошие статьи/книги (можно англоязычные)
Спасибо заранее.

Код (неоптимизированная Java):

public class Combines {

    /**
     * Складывает аудиосигналы + проводит постнормализацию в [-1;1]
     * @param audio входные аудиосигналы
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithNormalize( double[]... audio) {
        if (audio.length == 0) return null;
        if (audio.length == 1) return audio[0];

        int maxIdx = 0;
        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        // Сложим все аудиосемплы (+ выделим пиковый аудиосигнал)
        double[] result = new double[maxIdx];
        double normalizer  = 1.0;
        for (int i = 0; i < maxIdx; i++) {
            for (int j = 0; j < audio.length; j++)
                result[i] += audio[j][i];
            double res = Math.abs(result[i]);
            if (res > normalizer)
                normalizer = res;
        }

        double coeff = 1.0/ normalizer;
        if (normalizer !=1.0)
            for (int i = 0; i < maxIdx; i++)
                result[i] *= coeff;
        return result;
    }

    /**
     *  Складывает аудиосигналы c использование линейной компрессии диапазона
     * @param threshold пороговый уровень компрессии
     * @param audio входные аудиосигналы (должны быть нормализованы в [-1;1] !)
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithLinearDynaRangeCompression(double threshold, double[]... audio) {
        if (audio.length == 0 || threshold >= 1 || threshold < 0) return null;
        if (audio.length == 1) return audio[1];
        int maxIdx = 0;

        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        double[] result = Arrays.copyOf(audio[0], maxIdx); // Нормализованный результируюший массив.
        double linearCoeff  = (1-threshold)/(2-threshold);

        // Сложим все аудиосемплы по принципу
        for (int i = 1; i < audio.length; i++)
            for (int j = 0; j < maxIdx; j++) {
                double res = result[j] + audio[i][j];
                double absRes = Math.abs(result[j] + audio[i][j]);
                if (absRes <= threshold)
                    result[j] = result[j] + audio[i][j];
                else
                    result[j] = Math.signum(res) * (threshold + linearCoeff * (absRes - threshold));
            }
        return result;
    }

    /**
     *  Складывает аудиосигналы c использование логарифмической компрессии диапазона
     * @param threshold пороговый уровень компрессии
     * @param audio входные аудиосигналы (должны быть нормализованы в [-1;1] !)
     * @return сложенный аудиосигнал
     */
    public static double[] combineWithLnDynaRangeCompression(double threshold, double[]... audio) {
        if (audio.length == 0 || threshold >= 1 || threshold < 0) return null;
        if (audio.length == 1) return audio[1];
        int maxIdx = 0;

        // Найдем самый длинный семпл
        for(double[] arr: audio)
            if (arr.length > maxIdx)
                maxIdx = arr.length;

        // Приведем все входные семплы к максимальной длине
        for(int i=0; i < audio.length; i++)
            if (audio[i].length < maxIdx)
                audio[i] = Arrays.copyOf(audio[i], maxIdx);

        double[] result = Arrays.copyOf(audio[0], maxIdx); // Нормализованный результируюший массив.
        double expCoeff = alphaT[(int) threshold*100];

        for (int j = 1; j < maxIdx; j++) {
            double res = 0;
            for (int i = 0; i < audio.length; i++)
                res = res + audio[i][j];
            double absRes = Math.abs(res);
            if (absRes <= threshold)
                result[j] = res;
            else
                result[j] = Math.signum(res) * (threshold + (1 - threshold) *
                        Math.log(1.0 + expCoeff * (absRes - threshold) / (2 - threshold)) /
                        Math.log(1.0 + expCoeff));
        }

        return result;
    }

    // Решение уравнений pow(1+x,1/x)=exp((1-t)/(2-t)) при t=0, 0.01, 0.02 ... 0.99
    final private static double[] alphaT = {
                    2.51286, 2.54236, 2.57254, 2.60340, 2.63499, 2.66731, 2.70040, 2.73428, 2.76899, 2.80454,
                    2.84098, 2.87833, 2.91663, 2.95592, 2.99622, 3.03758, 3.08005, 3.12366, 3.16845, 3.21449,
                    3.26181, 3.31048, 3.36054, 3.41206, 3.46509, 3.51971, 3.57599, 3.63399, 3.69380, 3.75550,
                    3.81918, 3.88493, 3.95285, 4.02305, 4.09563, 4.17073, 4.24846, 4.32896, 4.41238, 4.49888,
                    4.58862, 4.68178, 4.77856, 4.87916, 4.98380, 5.09272, 5.20619, 5.32448, 5.44790, 5.57676,
                    5.71144, 5.85231, 5.99980, 6.15437, 6.31651, 6.48678, 6.66578, 6.85417, 7.05269, 7.26213,
                    7.48338, 7.71744, 7.96541, 8.22851, 8.50810, 8.80573, 9.12312, 9.46223, 9.82527, 10.21474,
                    10.63353, 11.08492, 11.57270, 12.10126, 12.67570, 13.30200, 13.98717, 14.73956, 15.56907, 16.48767,
                    17.50980, 18.65318, 19.93968, 21.39661, 23.05856, 24.96984, 27.18822, 29.79026, 32.87958, 36.59968,
                    41.15485, 46.84550, 54.13115, 63.74946, 76.95930, 96.08797, 125.93570, 178.12403, 289.19889, 655.12084
            };
}

Вопрос задан более трёх лет назад
380 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Joysi @Joysi Автор вопроса

1)Вы бы уточнили с какой целью вы суммируете сигналы
С целью создать итоговый аудиофайл из нескольких входящих, при воспроизведении которого:
-громкость не будет ниже любого из исходных
-будут отсутствовать хрипы и иные "артифакты"
2) По идее надо перед суммированием нормализовать сигналы относительно того, у которого максимальная амплитуда, но тут возможен вариант, что последний будет "давить" все остальные (поэтому звук видимо тихий). Еще как вариант указать порог и ограничить амплитуду перед нормализацией или как-то по-другому "подавить" всплески.
Это все делается (код приведен), но результат - получается "тихий" аудиофайл. Если же складывать не в лоб, а "округляя" граничные всплески или просто их "обрезая" - получим артефакты.

В общем, попробуйте замоделировать эти процессы в Matlab simulink.
Незнаком с мат пакетами. Надо бы, но это долго. К тому же бы правильно понять "физику" сложения. Например, на синтезаторе зафиксирована громкость. Нажимаем одну клавишу - звук на одной основной частоте a1 , далее нажимаем 3,4,5 клавиш - аккорд звучит на частотах a1+a2+a3+a4, но в пределах заданной громкости, что и на предыдущем шаге. КАК ОН ЭТО ФОРМИРУЕТ?
то есть как получить Z(f(a1)+f(a2)+f(a3)+f(a4)) чтобы уровень громкости был не ниже f(ai) i=1..4 и минимальном искажении и отсутствии артефактов, где ai - АЦП исходных сигналов, а Z - функция смешения сигналов, Z(t) и ai(t) лежать в [-1,1] для любого момента времени?
Частота

Написано более трёх лет назад
Александр Тер @alexsandr0000

Joysi, скорее всего просто складывает, но потом прогоняет через фильтр, чтобы убрать искажения. Хотя я уже подзабыл эту тематику, надо посмотреть книги по ЦОС. Вот дискуссия, которая будет вам интересна

Написано более трёх лет назад
Александр Тер @alexsandr0000

При "подавлении" сигнала нужно его прогонять через фильтр, чтобы убрать искажения, это обычно хорошо видно на спектре сигнала.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 298 просмотров
2

ответа
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 850 просмотров
1

ответ
Windows

+2 ещё

Простой
Чем записывать аудио поток на компьютере?
- 1 подписчик
- 22 июл.
- 213 просмотров
2

ответа
Программирование

Простой
Как готовиться к ВСоШ по информатике 9-11 классов/олимпиадам по программированию вообще?
- 1 подписчик
- 20 июл.
- 215 просмотров
3

ответа
Программирование

+1 ещё

Простой
Ответьте на вопрос по информатике?
- 1 подписчик
- 10 июл.
- 743 просмотра
3

ответа
Аудио

+1 ещё

Простой
Как починить очень плохую аудиозапись?
- 3 подписчика
- 05 июл.
- 856 просмотров
1

ответ
Электроника

+1 ещё

Простой
Каковы изоляционные свойства пластиковой бутылки?
- 2 подписчика
- 02 июл.
- 344 просмотра
2

ответа
Программирование

+1 ещё

Средний
Редактирование прошивки китайской камеры видеонаблюдения?
- 1 подписчик
- 01 июл.
- 398 просмотров
1

ответ
Электроника

+1 ещё

Простой
Как корретно измерить силу тока в Multisim?
- 1 подписчик
- 01 июл.
- 136 просмотров
2

ответа
Обработка звука

+2 ещё

Простой
Почему фоновое гудение даже на обработанном звуке на моменте разговора blue yeti?
- 1 подписчик
- 29 июн.
- 50 просмотров
0

ответов
Показать ещё Загружается…

Инженер АСУ ТП

Магнитогорск Связь Софт • Магнитогорск

от 100 000 до 250 000 ₽

Инженер-разработчик встроенного ПО прецизионных приборов

НИИП • Москва

от 150 000 до 250 000 ₽

Инженер-разработчик электронной аппаратуры (РЭА)

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 110 000 до 130 000 ₽

Answer 1 · 2018-05-11 11:12:10

Вы бы уточнили с какой целью вы суммируете сигналы. По идее надо перед суммированием нормализовать сигналы относительно того, у которого максимальная амплитуда, но тут возможен вариант, что последний будет "давить" все остальные (поэтому звук видимо тихий). Еще как вариант указать порог и ограничить амплитуду перед нормализацией или как-то по-другому "подавить" всплески.
Другой путь использовать масштабирующий коэффициент зависящий от важности сигнала в общей сумме, т.е. нормализуем сигналы и умножаем на этот коэффициент.
В общем, попробуйте замоделировать эти процессы в Matlab simulink.

Как сложить оцифрованные аудиосигналы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт