Чтобы не зависеть ни от кого, запускай локально openchat35 (тюненый мистрал 7b) требования 8-12Gb vram или на cpu (llama.cpu работает несколько токенов в секунду, более чем достаточно).
Если на машине есть 64гб памяти, запускать mixtral8x7b, на процессоре работает так же быстро как базовый mistral7, только требования к памяти в 8 раз выше). Эта модель по качеству как openai chatgpt35 +-, где то лучше, где то хуже.
Еще есть интереснее модели, например cohere command R (35B нужно 64+ ram), или databrix (требует 256 ram, работает по скорости как 30B, речь идет о 8бит квантизации, можно уменьшать но за счет ухудшения результатов), эти модели другие, однозначно лучше той же llama70B в разы (ждем кстати llama3)
Пользуйся чистым llama.cpp, встроенный в него server принимает http запросы, есть примитивный веб интерфейс, умеет отдавать ответ по токенам.