* детектируешь голос (в любом случае будешь делать что бы сэкономить)
простым алгоритмом, не требующим особой энергии, нужно понять, когда кто-либо говорит, для этого достаточно разложения (алгоритмы VAD - voice activity detection), там вариантов куча, от простого подсчета амплитуды (накапливаешь на интервале, при превышении - считаешь что есть речь) или спектрального (то же самое но на узкой полосе частот человеческой речи) до полноценной миниатюрной нейронной сети (десятки весов, пара слоев), которая будет эффективно работать на встроенных в процессор технологий (именно так смартфоны все слушают даже в заблокированном состоянии и энергии хватает на несколько часов)
* транскрибация голоса в текст
так уж получилось, что с текстом работать гораздо удобнее чем с аудио, при этом конечно теряется куча информации (интонация, эмоции, владелец голоса и т.п.), но часть информации можно сохранять еще с этапа спектрального анализа
* обработка текста
от простых классических алгоритмов (они могут быть сложные в смысле размера но простые для понимания)
'включи/выключи камеру (номер камеры)' -> включаем/выключаем камеру номер такая-то
до использования текстовых ИИ
там все не так просто, языковые особенности вынуждают либо закладывать падежи, времена, род и т.п. в алгоритмы либо забивать сотни вариантов одной и той же команды.
* инструменты настройки и контроля за управляемым оборудованием
когда у тебя один микрофон, одна камера и одна лампочка, не нужно где то хранить сколько их, где они находятся, и как их настраивать, один раз вручную настроил а код работает с абстрактной - просто камера, но когда камер лампочек много, их нужно как то идентифицировать, как то ими управлять (у тебя одни камеры сяоми с одним хакнутым api и пара своих поделок со своим) следить что они работают,..
* инструменты настройки логики управления
добавить свою команду (надоело говорить 'выключи свет, закрой шторы' а хочешь - 'подготовка ко сну'), переименовать "камера 7" на "камера в спальне", ввести возможность контроля за владельцем голоса (типа если ты скажешь 'выключи свет' то действовать, а если кто то другой, сказать - 'не хочу') и за ним инструменты авторизации (например приложение на смартфоне, ожидающее двойное нажатие кнопки громкости для подтверждения и вибро для обратной коммуникации) и миллион других тонкостей, без которых твой умный дом никому будет не нужен.
И на этом этапе, использование готовой ИИ, которой даешь ручки управления, скидываешь сырой текст и ждешь что все будет работать как ожидается, может столкнуться с техническими ограничениями размера промпта.
p.s. недавно появился openai realtime api и мультимодальная модель gpt4o-realtime, умеющая текст и голос, там реализовали базовый инструментарий для реализации голосовых агентов, работающих в реальном времени, но сам не пробовал (только то что майкрософт предлагает голос-голос без ручек к инструментам, прикольно, но это игрушка)
p.p.s. майкрософт, когда релизила phi4, тихонько в уголке выложили свою мультимодальную модель с тремя модельностями
text-image-audio. Тихо, наверное потому что из-за трех модальностей оно получилось не очень? я не пробовал