Есть два направления в приложениях инференса (запуск нейронки для получения ответа но не обучение и тюнинг) и соответственно для каждого свои минимальные требования к железу.
По умолчанию, каждая открытая модель, доступная для локального запуск, поставляются с проектом с исходниками и подробными инструкциями по их запуску, для самых новых и топовых решений это обычно единственный способ. Для этого решения требования к железу самые высокие, а именно, много оперативной памяти gpu, на одной материнской плате. Обычно это по одному байту на вес сети (8бит квантизация) плюс память на размер контекстного окна, размера вопроса и ответа (зависит от модели, от 2гб до десятков), например llama70b будет требовать 70гб+ещё 10гб+-.). Я покупал nvidia 4060ti 16gb vram, у них самая дешёвая память за гигабайт и работает достаточно быстро именно для нейронок (она дешёвая потому что для геймеров тормозная).
Некоторые (многие, даже топовые, с задержкой в месяц) появляются в
llama.cpp или основную на ней ollama, которая очень эффективно работает без видеокарты и даже если оперативной памяти видеокарты чуть чуть не хватает. Я запускал lllama70b на 64гб обычной ram, 5бит квантизация, скорость 1.5токена в секунду... Всякие 8б летают но они глупые.