Я во времена первой llama делал такую работу на ней, хорошо проработанный запрос, список типов запчастей (это справочник) к промпту и по одной записи из списка запчастей, и повторять для каждой
На процессоре тогда он по 20-30 секунд отрабатывал запись, несколько тысяч за несколько часов.
Весь процесс нужно сохранять и отслеживать, корректируя промпт, помню у ламы тогда была проблема с финишным токеном, после ответа она могла продолжить разглагольствовать, это тоже решаемо но нужно все это учитывать.
Сейчас у llama.cpp есть поддержка kv-кеша (не смотрел), и уж точно эта поддержка есть у топовых openai/anthropic/google, тогда каждый запрос у тебя будет моментальный, и токены тратиться только на название запчасти и ответ.
Хуже, если справочник в запрос не влезет (ориентируйся на 8к токенов, джаже топовые модели нормально только в пределах этого окна работают, хотя хз может уже все гораздо лучше стало, просто проведи тесты), тут есть варианты - можно по хардкору расписать вектора смысла (embedding) для каждого значения справочника и разделить справочник на части таким образом, что бы близкие по смыслу значения были рядом, а далекие - в другой части, и тогда для каждой запчасти делать несколько запросов с разными списками из справочника...
да это долго, но простого решения тут нет, человек делать это будет еще дольше