Качественный синтез речи только за деньги, я говорю платные api openai/google, но синтез речи это пол дела, нужно еще по голосам раскидать если хочешь очень качественно (иначе, все просто). Напомню цены api там где то $2.5 за миллион токенов (несколько толстых книг,.. если есть прямой доступ к гугловским моделям, они дают бесплатные лимиты, более чем огромные.
Более менее терпимый можно собрать на компьютере,
смартфона будет катастрофически не хватать, например на базе silero моделей (среднее качество русской речи, достаточно выразительное, есть глюки с ударениями, есть модель для эмитации чужой речи по примерам).
Хочешь сэкономить денег? обратись к ИИ агентам, это уже второй год как тренд, вместо того что бы платить другим,
заплати создателям ИИ, им не хватает. Сейчас бесплатные или локальные модели (например qwen3.6-35b-a3b) более чем достойные.
Самые простые автономные агенты это к примеру
qwen coder agent
или opencode
Идешь на сайт например opencode.ai, раздел download, для linux там просто команда (настоятельно рекомендую изолировать ИИ от компа, например в виртуалке штатной wsl если винда), если не понимаешь что делать, спроси бесплатного duck.ai. Тут же регистрируешься и полчаешь бесплатный api ключ, тебя его при первом запуске спросят... там что то типа бесплатная подписка Zen. Выбирай модель с припиской free, например "MiniMax m2.5 free".
Запускай просто opencode - интерфейс в консоли, opencode --hostname 192.168.1.123 web - для интерфейса в браузере (ip машины/виртуалки на которой запустил).
Дальше твой план работа такой, выбираешь модель для синтеза речи, гугли, спрашивай других, в общем на свой вкус. Например выбрал RHVoice, идешь на его репозитарий, копируешь его ссылку в окно агента и говоришь, склонируй локально, изучи, напиши простейший приложение-пример для синтеза речи... я помню с локальной моделью qwen у меня это заняло минут наверное 10,.. еще 30 минут диалога, что бы из этого примера сделать что то стоящее (при этом я принципиально не лез в код никак). Если видишь что агент что то не то делаешь, жмешь ESC и спрашиваешь, "что сделал, что собирается сделать, с какими проблемами столкнулся и какую именно сейчас решаешь", если что это типовой вопрос, который тимлид любой команды должен задать любому в своей команде если нужна помощь, а дальше с ним в беседе, понимаешь что ему нужно, чем ему можно помочь.
Я помню за пол часа написал примитивный переводчик книг (причем работа с форматами у агента - это минуты кода, когда как если бы я писал, я бы на это часы тратил), еще где то за два часа запилили с агентом приложение, которое с помощью ИИ размечает текст на участников (низкое качество,.. к сожалению, мне кажется, высокое требует топовых ИИ, малополезно тратить на это, но в принципе возможно), и формирует из этого диалог (еще пару часов, там были затупы модели с быстрым синтезом,.. он вместо смены голоса у одного объекта, создавал новый на каждый, тратя раз в 6 больше времени, повторяю, я не лез в код, я просто задавал вопросы).
Советы:
*одна задача - один каталог (это в его идеи - независимые проекты), да, можно сказать, загляни в другой каталог, это не запрещено, но внутренняя память и контекст привязан к сессии в каталоге, сессий можно много.
* рули процессом сам. Дели на этапы. Каждый этап требуй создавать инструкции.
* не пытайся сразу создавать 'майнкрафт под ключ', начинай с простого, консольная утилита без интерфейса, потом веб сервис... дальше собственно идти не надо, со смартфона до домашнего компьютера (vpn!) и пользуешься.
* требуй создать git с самого начала. Требуй добавлять коммиты (commit, но по русски прекрасно понимают) после каждого рабочего примера, можешь сам требовать, если что то сломается, ты всегда сможешь агенту сказать откатись до рабочей версии.. сам говори ему когда ты получил что то рабочее, он запомнит.
* если видишь что приходится дважды одно и тоже объяснять, потребуй поместить это в агентский файл AGENTS.md в текущем каталоге, или сделай это сам.
p.s. opencode работает без vpn, если хочешь платить им, у них есть оплата криптовалютой.
есть openrouter.ai, это endpoint к почти любым ИИ моделям, включая синтез речи (нет гугловской но есть openai), так же есть оплата в криптовалюте, но топовые нейронки только через vpn/прокси
Автономные ИИ агенты это буквально, личный программист у тебя рядом под твоим командованием, да, пока еще не идеальный, да он инвалид (условно плохо со зрением) но невероятно быстрый и трудолюбивый. Знать программирование теперь самому не надо. Простые проекты УЖЕ можно создавать тупо в беседе с ИИ. И да, эти проекты в паблик не советую выкладывать, как минимум они потребуют хороший анализ на безопасность, но идеальны для личного использования.