Доброго времени суток, уважаемые тостеровцы.
В качестве одного pet-project мне захотелось сделать что-то похожее на игру, которую я увидел в одной музыкальной юмористической программе на некотором федеральном канале. Суть игры довольна проста - чем громче ты орёшь, тем выше прыгает мячик.
Начав думать о том, как бы я мог что-то этакое реализовать, я застопорился на том, что не знаю, как реализовывать часть с обработкой звука. Есть два варианта:
1) Определять только громкость звука, что должно быть проще.
2)speach-to-text recognition как дальнейшее развитие идеи.
Подскажите, пожалуйста, в какую сторону посмотреть, чтобы всё-таки воплотить идею. Должна ли эта быть какая-нибудь нейросеть или другая ML-модель? Заранее всем большое за советы!
Громкость - это обычная амплитуда сигнала. Извлекается из любого медиаформата или напрямую с микрофона чуть ли не как первичные данные - там даже никакой обработки не надо. Так и гуглите - "получение амплитуды с микрофона". Какая к черту нейросеть?
Большое спасибо за такой быстрый ответ.
Что-то я жёстко затупил и не посмотрел даже базовых вещей( это про громкость сигнала).
А если говорить о переводе речи в текст, есть какие-то достойные открытые проекты?