В мире не так много мультимодальных языковых моделей, проявляющих новые свойства, похожих на интеллект.
Самая мощная только одна - chatgpt4 и даже с ней нужно правильно составлять запросы чтобы она работала более менее верно. И даже она будет галлюцинировать, такова природа языковой модели и с этим можно бороться, создавая ансамбль контекстов (каждый контекст - новый чат с ИИ, можно начать с разными запросами, скармливая одну и ту же информацию разными способами) и сравнивая итоговые их ответы, если они одинаковые - значит вероятность верного ответа выше.
Бессмысленно спрашивать нейросеть напрямую, как минимум нужно формировать OneShot запрос, в котором в начале приводится пример ситуации, которую ты у модели запрашиваешь с ответами, плюс нужно выдать ей в контекст обновленную информацию по делу, по текущим изменениям законодательства и кучи других моментов... и контекст не резиновый. На текущий момент он 8 тысяч токенов, это очень мало (у llama, лучшей нейросети из доступных локально, и ее использование без разрешения meta нелегально, контекст в 2к токенов и ее уровень сравним с прошлой версии chatgpt35).
В интерфейсе chatgpt этой функции нет, но если вызывать модели из api то контекст там создается простым помещением всего диалога начиная с самого начала в тело запроса, это значит можно 'откатывать контекст' на любой момент, в результате вместо попытки подсунуть сети сразу всю информацию, сеть можно спрашивать, что ей не хватает, получать ответ, откатывать контекст на момент до этого вопроса и добавлять нужну информацию, повторяя до тех пор пока сеть не даст добро.