Как работать со звуком в С#?

Question

Zvercheg @Zvercheg

Как работать со звуком в С#?

Идея заключается в том чтобы проверить на сходство одну аудио дорожку с другой. Обе записаны с помощью микрофона. Для этого с помощью С# и библиотеки NAudio я снял значения с микрофона. Получил WAV файл. Далее загнал значения в массив байтов (byte a []). И получил 1,2 миллиона значений для дорожки длиной 9с. Пытался сравнивать их в "тупую" миллион значений с милионом и получал откровенный бред. На руках имею книгу в которой описаны музыкальные ноты в ггц, пример Ля 1 актавы (A1) = 440 ГГц. Теперь вопрос сколько значений отвечают за эту ноту ля (частота дискретизации у меня = 44100 и 2 канала). Как мне понять что в этот момент времени амплитуда 440, а в другую секунду предположим 330. Из этого массива. Мне советовали использовать БПФ ОПФ (быстрое преобразование фурье или оконное преобразование фурье) но откровенно говоря я не до конца понимаю как они работают м что могут мне дать. Прошу о помощи, кому не жалко своего времени - объясните.

Вопрос задан более трёх лет назад
1358 просмотров

1 комментарий

Подписаться 2 Сложный 1 комментарий

Решения вопроса 1

10 комментариев

Zvercheg @Zvercheg Автор вопроса

То есть я беру все значения массива загоняю в матлаб, делаю ДПФ и получаю счастье на выходе?

Написано более трёх лет назад
res2001 @res2001

Zvercheg, В общих чертах да. Но думаю счастьем там и не пахнет :-)

Написано более трёх лет назад
Zvercheg @Zvercheg Автор вопроса

А во второй половине тогда что будет? И как мне понять что допустим в эту секунду была сыграна Ля, а через 3 секунды была сыграла Ми при этом продлилась она 5с. И тд?

Написано более трёх лет назад
Zvercheg @Zvercheg Автор вопроса

И что я должен иметь чтобы выполнить fft?

Написано более трёх лет назад
res2001 @res2001

Zvercheg, Нужно делить ваши 9с на короткие отрезки времени, например по 100 мс (это я просто для примера) и делать на этом куске данных ДПФ.

Написано более трёх лет назад
Zvercheg @Zvercheg Автор вопроса

И так в цикле пока не дойду до 9с? Благодарю за помощь

Написано более трёх лет назад
res2001 @res2001

И еще. В результате ДПФ будут комплексные числа. Чтобы посчитать амплитуду нужно найти модуль комплексного числа: sqrt(Re(x)^2 + Im(x)^2)
Во второй половине массива содержится сопряжение первой половины (это свойство ДПФ). Обычно вторую половину отбрасывают, т.к. ее можно получить из первой (если понадобится сделать обратный ДПФ).

Написано более трёх лет назад
Zvercheg @Zvercheg Автор вопроса

И последний вопрос, в том массиве который я имею на данный момент числа больше чем 255 по сути нет. От 0 до 255 все. В этом массиве находятся не герцы?

Написано более трёх лет назад
res2001 @res2001

Zvercheg, Видимо каждый элемент массива занимает 1 байт. Для беззнакового значения длиной 1 байт 255 - максимально возможное значение. Это значит, что у вас 8 битное АЦП.
Вообще это мало практически для всего. Для нормального звука и егообработки нужно хотя бы 2 байта, т.е. АЦП на 16 бит.
Если вы писали звук просто со звуковой карты компа, то я думаю, это можно отрегулировать настройками вашей библиотеки NAudio.

Написано более трёх лет назад
res2001 @res2001

Zvercheg,
В этом массиве находятся не герцы?

Если массив получен чтением из wav, то нет в нем находятся амплитуды сигнала с микрофона.
Герцы появятся только после ДПФ.
И еще нюанс.
У вас частота дискретизации 44100, если делать ДПФ на массиве размерностью меньше частоты дискретизации, то интерпретация результат немного меняется. Получается что в элементе массива результата ДПФ будет не 1 Гц, а 44100/len Гц (где len - длина массива на котором делался ДПФ).
Ну и соответственно индекс для 440 Гц будет другим.
Поэтому, возможно, проще делать ДПФ кусками по 1 сек.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

Простой
Как лучше всего возвращать ответы?
- 1 подписчик
- 20 часов назад
- 61 просмотр
1

ответ
C#

Средний
Как работает TaskCompletionSource, когда возникает исключение?
- 1 подписчик
- 29 июл.
- 72 просмотра
2

ответа
C#

+1 ещё

Простой
Как спроектировать домены?
- 2 подписчика
- 26 июл.
- 125 просмотров
0

ответов
Windows

+2 ещё

Простой
Чем записывать аудио поток на компьютере?
- 1 подписчик
- 22 июл.
- 195 просмотров
2

ответа
C#

+1 ещё

Простой
Как исправить ошибку CS0019 в Unity?
- 1 подписчик
- 16 июл.
- 90 просмотров
2

ответа
C#

+2 ещё

Средний
Как запустить приложение через WSL в Rider?
- 1 подписчик
- 16 июл.
- 73 просмотра
0

ответов
C#

+2 ещё

Средний
Как поймать исключение, возникшее в фоновом потоке UI-приложения?
- 1 подписчик
- 12 июл.
- 99 просмотров
0

ответов
C#

+1 ещё

Простой
Как распознать клавишу Alt в терминале?
- 1 подписчик
- 11 июл.
- 94 просмотра
1

ответ
Android

+2 ещё

Простой
Какое направление выбрать в Android?
- 1 подписчик
- 09 июл.
- 251 просмотр
2

ответа
C#

+1 ещё

Средний
Как правильно обрабатывать исключения в WPF приложении?
- 1 подписчик
- 06 июл.
- 130 просмотров
1

ответ
Показать ещё Загружается…

C# разработчик

AMBIM

от 240 000 до 300 000 ₽

Backend Developer (C#/.NET)

Wanted

от 150 000 до 200 000 ₽

Руководитель группы аналитиков системного анализа (Team Lead)

PromIT • Екатеринбург

от 180 000 до 220 000 ₽

Вы бы ГГц на Гц исправили, а то у людей мозг расплавится от таких частот))

Answer 1 · 2018-01-27 19:52:58

В wav сигнал пишется во временной области, т.е. как он снимается с микрофона и преобразуется в цифру в таком виде и попадает в wav (ну это упрощенный вариант). Во временной области частот нет. Частоты это синусоиды. Временная область представляет собой сумму всех синусоид составляющих сигнал.
Чтобы перейти к частотам (герцам) вам нужно выполнить дискретное преобразование Фурье (в матлабе - fft() ).
На выходе fft вы получите массив частот. В первой половине массива будет то что вам нужно, берете элемент с индексом 440 (частота 440 Гц) значение этого элемента будет амплитуда частоты 440 Гц.

Answer 2 · 2018-01-31 00:22:41

Нужно поискать на тему акустического отпечатка. Допустим, https://en.wikipedia.org/wiki/Acoustic_fingerprint
Есть также библиотека pHash.

Как работать со звуком в С#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт