Предложил бы посмотреть в сторону технологии RAG. В двух словах - берём общецелевую LLM, например доступную llama, загружаем документы, содержащие ответы на потенциальные вопросы, в векторную бд, обучаем модель отвечать с использованием контекста из векторной бд. Отдельно обучать модель тоже можно, но получится намного дороже. Пример такого подхода для русскоязычных документов -
https://github.com/mpashkovskiy/ru-rag.
Nvidia недавно выпустила такой комплект для своих карт RTX серий 30 и 40 под Windows 11 -
https://github.com/NVIDIA/trt-llm-rag-windowsu