Языковые модели идеальны (на основе gpt) для задачи самморизации (text summaryze).
Если текст не влезает в окно контекста, его дробят на части по смысловым разделителям (главы или в худшем случае абзацы) и собирают итоговый набор смыслов в один большой запрос и повторным промптом удаляют повторения.
Хорошие языковые модели типа gpt3.5/gpt4/claude/bard более чем подходят для данной задачи, даже просто вручную поделить текст на главы и последовательно скормить их чату с максимально простым промптом, можно получить желаемое.
Если поиграть с разными промптами, данную задачу можно решать даже с открытыми языковыми моделями. Точно помню была неплохая модель mistral, которую тюнили и продолжают тюнить на разные задачи, в т.ч. на большой размер контекста
p.s. помним, ИИ не идеален, с некоторой долей вероятности он может чего то не понимать, где то выдумать и т.п. Чем лучше языковая модель тем качественнее результат, но полностью от ошибок пока не защищена ни одна модель.
Если тебе дорога точность, ее можно повысить, обращаясь к нескольким моделям, создавать сложнее промпты и заставлять модель перепроверять свои же решения. Грубый пример - сначала ты просишь модель о самморизации, затем каждый ее ответ прогоняешь по каждой главе/абзацу с вопросом, говорится ли об этом в каждом отдельном месте, причем используя разные модели можно с хорошими шансами повысить качество результата.
Языковые модели плохо работают с моментальными ответами, но хорошо с рассуждениями, и еще лучше с приведенными примерами перед промптом.
Есть разные лайфхаки в промптах, которые можно использовать чтобы еще больше улучшить результат. Из недавних рекомендаций:
* надавите на эмоции (как бы это не парадоксально не звучало), добавляйте к запросу что 'вам очень важно получить правильный ответ'...
* языковые модели очень любят поддакивать вопрошающему, с большей вероятностью модель не найдет в твоих утверждениях ошибку, если ее об этом попросить напрямую 'есть ли у меня тут ошибка', но с готовностью попытается найти эту ошибку, если сказать что то типа 'я нашел тут ошибку, какая она'