Мне нужно что то не стандартное, не просто апи или сервис в интернете.
Мне нужна сама технология.
Допустим я записываю свои фразы, своим голосом, и делаю ассоциации с текстом или командами.
Как сделать чтобы распозновался не просто мой голос но и голоса других людей с разными интонациями.
Давным давно был телефон с черно белым экраном, он умел обучаться и выполнять команды.
Вот нужно тоже самое чтобы сделать джарвина :)
T_y_l_e_r: думаю надо научиться работать со звуком для начала, как его кодировать, раскладывать на простые элементы понятные алгоритму. Затем надо копать в сторону методов машинного обучения, это будет классификация в вашем случае. Методов много, каждый хорошо работает на определенном наборе данных. Вам надо будет записать одну и ту же команду раз 10 например разными людьми, скормить методу обучения, построить модель, которая будет предсказывать команду для новых поступивших голосом команд. Примерно так я вижу решение вашей задачи.
Технология может быть такой. Сначала разбивка по времени и спектральный анализ. Советую применить вейвлеты. Затем выделение фонем (составьте словарь). А из фонем составляйте слова. Но это долгий путь. Самое лучшее - как раз API (напр. Speech API от Microsoft).