Работа со звуком С++ как?

Question

Sratimon1 @Sratimon1

Работа со звуком С++ как?

Здравствуйте. Меня интересует что такое звук , к примеру картинка это набор пикселей расположенных по координатам и состоящих из RGB (255,255,255 это белый ) ,видео это набор изображений , а что из себя представляет звук ?
Какие есть библиотеки для работы с ним ?
И где можно почитать об этом подробнее ? (так сказать для тупых).

Знаю можно как то работать со звуком стандартной библиотекой fstream вроде. Но как ? Если можно пример кода.
Я натыкался на пример с побитовым чтением файла но в консоли был какой то бред при выводе .

Чего я хочу получить в итоге . Превратить звуковую дорожку в график , научиться работать со звуком , чистить его , попробовать научить нейронную сеть распознавать некоторые слова.

Работаю я в Code Block mingw или Qt Creator язык как и написано выше C++.
Навыки: процедурное программирование на 4, ООП на 3 с минусом , Английский на уровне примерного понимания справки с небольшой помощью гугл транслита (почти не знаю ).

Вопрос задан более трёх лет назад
10876 просмотров

4 комментария

Подписаться 4 Сложный 4 комментария

Толстый Лорри @Free_ze

Как насчет навыков гугл поиска?)

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

Толстый Лорри: Две недели капаю гугл, яндекс . Были не которые примеры но в основном это просто программы для воспроизведения или записи. Особенно на qt.
И да уважаемый у меня к вам вопрос как загуглить то о чем не знаешь ? Т.к требуется четкое построение своего вопроса в гугле или яндексе , но из за того что я не знаю что такое звук я не могу таковой составить !
По запросам С++ работа со звуком выдает пустые форумы без ответов , по запросу qt работа со звуком выдает тьму плееров для прослушивания музыки .
Если вы такой гугл мастер помогите мне составить запрос, в какой input его вставить я сам догадаюсь !

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

Толстый Лорри: И да вы походу не в курсе как работают поисковые роботы гугла, что такое поиск и от куда там берутся сайты и информация или не внимательно прочитали мой вопрос ! При всех этих "но" которые написаны в моем вопросе не возможно получить нужную информацию из поиска !

Написано более трёх лет назад
Толстый Лорри @Free_ze

Sratimon1: Хорошо, подсказка первая: необходимо погуглить спецификации форматов аудиофайлов. Для начала - без сжатия, пусть wav.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 1

9 комментариев

Sratimon1 @Sratimon1 Автор вопроса

Спасибо но Английский на уровне примерного понимания справки с небольшой помощью гугл транслита (почти не знаю ). Читать вики на Английском это пока что не мой уровень но спасибо за ответ

Написано более трёх лет назад
tschin @tschin

Sratimon1: Поисковые системы - наше всё! Аналог на русском: goo.gl/vSEqqR

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

Если вас не затруднит напишите программу пара строк не больше !
ifstream file("C:\\ok.wav",ios::beg | ios::in|ios::binary); // к примеру .
Открытие звукового файла (не знаю какой формат лучше для начала у изображений это bmp с ним проще всего работать) на ваш выбор . Вывод содержимого в консоль и сохранение . Обработки ошибок ти по файл отсутствует не надо .
Можете послать меня понимаю это нагло =)

Написано более трёх лет назад
tschin @tschin

Sratimon1: если вы хотите посмотреть только содержимое файла, вам нужен hex-редактор.

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

ifstream file("C:\\ok.wav",ios::beg | ios::in|ios::binary); в hex в консоль разве не вывести ? или на этом уровне работать с файлом это себя наказать ?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

> не знаю какой формат лучше для начала у изображений
Sratimon1: Мой любимый: XPM.
Для звука текстовых аналогов, вроде, нет.

Вот пример, который я использовал для генерации тестовых тонов: https://gist.github.com/jcmvbkbc/deca796d5025298f3...

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

FREQ, CHANNELS и SAMPLE_WIDTH можно менять в разумных пределах.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Пример выводит на стандартный вывод wav-файл содержащий простой PCM, по 3 секунды ноты ля с первой октавы до самой высокой, представимой заданной частотой дискретизации.

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

Спасибо за ответы завтра начну капать глубже, удачного вам дня , вечера , ночи , утра .

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

3 комментария

Sratimon1 @Sratimon1 Автор вопроса

Спасибо я натыкался на этот пост на хабре . Но сайт с примером не работал сей час все гуд
https://github.com/krestjaninoff/Speech-Recognizer...
Начинаю капать . Еще раз спасибо

Написано более трёх лет назад
tschin @tschin

Sratimon1: Вы бы разобрались с физикой сначала. Потом с форматами данных(как и в чем компьютер хранит звук), а потом смотрели бы исходники. Очевидно, что если вы задаете такие вопросы, ни физику, ни форматы данных вы не знаете

Написано более трёх лет назад
Sratimon1 @Sratimon1 Автор вопроса

Спасибо за совет но теории я начитался. Т.к я самоучка (работаю электро монтажником) мне подсказать не кому и приходится задавать идиотские вопросы тут и отвлекать людей от дел .
Просто теория это одно а практика другое . Если я поработал с изображениями я сразу понял что да как и понять другие форматы изображений мне не составит труда . Но со звуком я не работал и не знаю что да как .

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 114 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 64 просмотра
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 103 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 177 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 107 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 326 просмотров
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 103 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1350 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 185 просмотров
3

ответа
Показать ещё Загружается…

Толстый Лорри: Две недели капаю гугл, яндекс . Были не которые примеры но в основном это просто программы для воспроизведения или записи. Особенно на qt.
И да уважаемый у меня к вам вопрос как загуглить то о чем не знаешь ? Т.к требуется четкое построение своего вопроса в гугле или яндексе , но из за того что я не знаю что такое звук я не могу таковой составить !
По запросам С++ работа со звуком выдает пустые форумы без ответов , по запросу qt работа со звуком выдает тьму плееров для прослушивания музыки .
Если вы такой гугл мастер помогите мне составить запрос, в какой input его вставить я сам догадаюсь !
Толстый Лорри: И да вы походу не в курсе как работают поисковые роботы гугла, что такое поиск и от куда там берутся сайты и информация или не внимательно прочитали мой вопрос ! При всех этих "но" которые написаны в моем вопросе не возможно получить нужную информацию из поиска !
Sratimon1: Хорошо, подсказка первая: необходимо погуглить спецификации форматов аудиофайлов. Для начала - без сжатия, пусть wav.

Answer 1 · 2016-12-02 01:01:22

что такое звук

Начало здесь.

картинка это набор пикселей расположенных по координатам и состоящих из RGB (255,255,255 это белый )

1 секунда двухканального звука оцифрованного на 48000 Гц с 16-битной точностью это, например, 48000 пар знаковых 16-битных целых чисел. Если все эти числа равны, то это одна секунда тишины. А если первое число в i-й паре равно 32767 * sin(440 * 2 * Pi * i / 48000), а второе -- 0, то это одна секунда ноты ля первой октавы в левом канале.

Превратить звуковую дорожку в график , научиться работать со звуком , чистить его

Продолжать поиски здесь.

Answer 2 · 2016-12-02 01:01:14

Sratimon1: По-моему, вы недостаточно понимаете предметную область. Может попробовать гуглить "в лоб"? Например, "распознавание речи С++"? Вот первая ссылка с Яндекса: https://habrahabr.ru/post/226143/ В ней есть ответ на ваш вопрос: что такое звук с точки зрения компьютера. Если коротко, звук с точки зрения компьютера - цифровой сигнал, набор значений амплитуд.

Answer 3 · 2016-12-02 04:53:33

"а что из себя представляет звук"

В "математическом" смысле? Функция вида amplitude(t) = f(t) :-)

"Стандартное" представление?
- Берем отрезок этого нашего t (например - 1 минуту)
- делим на конечное число моментов : t_i = (1 / f) * i, где t_i - i-й момент времени, i - номер, f - частота дискретизации
- сохраняем значения амплитуд в эти моменты (amplitude_i = amplitude(t_i))
- ну и разумеется - представляем эти значения как n-битоное число (напрнимер - 24 бита).

"Превратить звуковую дорожку в график"
А смотря какой. Если речь о осцилограмме - то просто юзаем значения амплитуд (ну, может - применим какую-нибудь простую функцию к ним. От линейного значения к логарифмическому, например, перейдём). Как минимум - можно ещё представить как спектрограмму (которые часто применяют). Если вкратце - поделить на интервалы, каждый из которых - описывается отдельной функцией, и представить её, например, как сумму синусоид (man преобразование фурье).

"чистить его"
Опять же - ЕМНИП, в основном работаем с амплитудами (условно - вычиаем из зашумленного сигнала amplitude(t) + noise(t) компонент noise(t)) или спектром (да, условно - посчитали спектр, затем занизили/завысили часть частот (т.е. коофициенты у соответсвующих синусоид)) и снова сгенерировали звук. Но - это уже тянет на целую предметную область, так что я бы сперва осилил первую часть сообщения.

"попробовать научить нейронную сеть распознавать некоторые слова"
Опять же - целая отдельная область. Я не знаю, какие сейчас юзают подходы - но без предварительного поиска я бы сделал подобное (впрочем, такой сети явно потребуется дохера данных для обучения, я же почти не использую специфических знаний о проблеме) :
- представил запись как набор спектрограмм
- поделил их на соответсвующие отдельным звукам
- скормил маркированные данные сетке

"RGB"
Не всегда, кстати. Есть же всякие CMYK и прочее. Но, насколько я знаю - значения в одной схеме можно привести к другой, да.

Работа со звуком С++ как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт