Без рага эта задача адекватно не решается, тк несколько тысяч страниц текста - это большой объем информации, который просто не влезет в контекстное окно любой модели, которую можно поднять самостоятельно
Соответственно, нужно прорабатывать:
- то как перегнать весь материал например в markdown
- как нарезать материал (чанкование или полуавтоматически или еще какие-то стратегии)
- какую модель использовать чтобы векторизовать материал
- какие-то еще вещи, связанные с улучшением рага
Раг при хорошей настройке позволяет добиться качества 90-95% точности ответов
По поводу поднятия сетки на арендуемом сервере:
в значительной степени это вопрос бюджета, тк чем больше сетка, тем больше нужно памяти GPU, чтобы она работала
Например, для поднятия deepseek r1 нужно 1.5 тб видеопамяти
при том, что популярная видюха, которую можно найти в клауде - это Nvidia H100 с 80гб памяти за ... тысяч 300 р в месяц стоимости аренды, на 1.5тб сколько будет стоить сервер предлагаю пересчитать самостоятельно :)
Сетки начального уровня с 8млрд параметров можно запустить на чем то с 24гб видеопамяти, но и качество ответов будет ниже (даже при условии, что раг будет идеально подтягивать информацию)