Попробовал поискать информацию в сети по этому вопросу, но не нашел.
Зачем обманывать? Не искал же. Когда каждую неделю публикуют по несколько десятков бенчмарков, и ты не нашёл? Это как вообще?
С таким упорством тебе любая модель подойдёт, какая разница, если даже бенчмарк найти для тебя проблема...
https://www.swebench.com хотя бы для кого придумали? О нём по-моему из каждого утюга говорят, кто хотя бы краем уха интересуется LLM.
На
https://www.vals.ai куча бенчмарков.
https://artificialanalysis.ai
Столько бенчмарков каждый день выходит, что времени не хватит всё разбирать.
Если вы работаете или работали с разными моделями
Любой адекватный разработчик, который продуктивно использует нейронки сейчас
просто обязан пользоваться практически всеми существующими моделями и уметь их применять, знать различия. Кто пользуется одной моделью -- застрял где-то в болоте.
Сейчас нейросети это не "какая модель топовая", а какая модель топовая
сегодня. Всё меняется каждый день с колоссальной скоростью, нужно следить за бенчами
в реальном времени, тогда будет какой-то толк.
И вообще вопрос некорректный, на который нельзя ответить без поставленной задачи. Для каких тебе задач нужна модель? Что она должна делать? На каких языках кодить? Должна уметь в фундаментальные алгоритмы или просто на джаваскрипте формочки двигать? Какие фичи? Агентская? Должна уметь вызывать тулинг, MCP? Или просто считать бакс на фикс в тупую? Нужна скорость? Нужна точность? Итеративность или one-shot? Насколько большое контекстное окно ожидается?
Если всё так же лень искать, поищу за тебя абстрактный бенчмарк в вакууме под рандомную задачу:
На текущий день самым оптимальным по бенчмаркам идёт
Grok 4 Fast. Он в топе по соотношению цена/качество/скорость. Но ситуация поменяется уже через неделю, зачем тебе эта информация, если ты не будешь искать новый бенчмарк через неделю, непонятно.