Если вариант 'только ИИ и никакими другими адекватными способами' уже решен и вас не перспорить то...
Забудьте про анализ на процессоре, будете ждать часами документ. Вам нужна видеокарта, а точнее достаточный объем vram что бы вместить и веса сети (ориентируйтесь на исходные веса и 8бит квантизацию) и kv-cache для контекстного окна (а его объем значимый) и кеша желательно 4-х кратно, что бы batching работал лучше.
Адекватные серверные GPU купить в россии (да и не только) за адекватные деньги не возможно.
Адекватные деньги - это только десктопное железо, самое доступное это 4060ti 16gb vram (по 55т.р. они тормозные для игр поэтому и дешевые). В самом лучшем варианте их можно будет вставить 4шт (можно и больше но почти наверняка будут проблемы в других местах) и при этом работать они будут максимум pci-e 4x (это повлияет на время загрузки весов но не на их работу!)
Если готовы переплатить, берите любые nvidia с 24gb vram. В принципе будет работать и amd, но по софту будете ограничены только llama.cpp, а он с видеокартами не самый эффективный (он заточен на работу на процессоре, но зато лучше всех)
С двумя gpu например отлично работает 14b сеть qwen и qwen distiled r1, я пока еще не пробовал но 27b гугловская так же будет работать. С четырьмя gpu можно пробовать 70b модели (c 4бит квантизацией точно), что llama что qwen.