нейросеть распознающую смысл текста
на текущий момент этим занимаются Large Language Models, из открытых лучшие универсальные это
opt и
bloomz и они слабее даже llama но как основу их можно брать.
Языковые модели fine-tuning на примерах (буквально, размечаешь десятки-сотни пар данных: текст - ответ), и затем такую обученную сеть или комбаин (есть peft, который позволяет тюнить не веса модели а веса запроса, я слушал лекцию от яндекса, ребята там говорили что это очень выгодно по ресурсам и удобно, не трогать веса модели).
Если есть возможность и деньги, использовать chatgpt4, то она позволит простыми вопросами (почти такими же как к человеку, который решал бы твою задачу) решить задачу, еще не всем там доступен прямо ввод pdf документа но как я понял скоро будет доступен всем (кроме России само собой).
p.s. я пробовал на процессоре крутить llama и основанные на ней модели типа open assistent (не бери llm меньше 30B) для похожей задачи (объем документа ограничен 2к токенов, примерно 1.5к слов, можно многоуровневыми запросами сначала отвечать на вопросы по абзацам, а затем итоговую выжимку собирать и обрабатывать отдельным запросом), с ней работать очень сложно, ответы нужно предварительно чистить от мусора и разрабатывать условия окончания генерации (со стоп токенами там проблема) и работает на процессоре медленно (минуты на запрос) но это самое дешевое решение на текущий момент, доступное оффлайн в принципе, само собой без разрешения facebook пользоваться этим нелегально (как минимум не для исследования)