На текущий момент современные ИИ на базе GPT либо недостаточно умны что бы полностью Заменить человека в задачах программирования, либо слишком дорого обходятся (особенно если смотреть по стоимости api топовых моделей с рассуждениями).
Причина в способе их использования, в частности в программировании код практически целиком (на самом деле нет но есть нюансы) подается в контекстное окно, и вместе с подробным промптом в него должен еще поместиться и ответ. Начиная с 16к-32к токенов (gpt5 подняли планку до 32к-64к или даже до 128к), каким бы не был размер контекстного окна, у моделей начинаются сильные
глюки, это значит что с достаточно высокой (десяток другой процентов) вероятностью будут ошибки, и уменьшение этого процента на каждый следующий процент дается дороже экспоненциально либо в обучении либо в инференсе (можно задавать один и тот же вопрос сотни раз, собирая статистику ответов и выбирая тот что чаще, это повышает качество ответов еще на один шаг, но не линейно).
Если тебе нужна практическая сторона, то что у openai что у anthropic есть продукты автономного кодинга, т.е. либо в облаке либо локально (claude code), где ты работаешь с уже готовыми агентами, способными самостоятельно работать в консоли, писать код и даже вести его отладку (сам не видел но читал про это).
Настоятельно рекомендую поработать с ИИ вручную, т.е. в режиме запрос-ответ, посмотреть какие типовые ошибки он допускает, не на простых задачках из интернета, а на своих реальных.
После того как придет понимание, на сколько полным должно быть ТЗ, можно уже попробовать поработать с автономными агентами.