Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?

Question

Badimagination @Badimagination

Машинное обучение

Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?

Если можно, за 1 промпт. Или посоветуйте модель, которая так умеет. Желательно локальную. Просто обычно модели останавливаются на некотором не полном списке. Пример на Quen3 coder 30b: List as many nouns English words as you can that begin with the letter 'V', separated by commas.
Ответ: выдаёт 109 слов или фраз,
А сайт (ванлук в предпринимательском домене, если ссылка съелась):

выдаёт 505.

Вопрос задан 22 часа назад
65 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженерия машинного обучения

2 года

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Badimagination @Badimagination Автор вопроса

Жесть! Благодарю за мнение!

Написано 3 часа назад
rPman @rPman

есть более хардкорный вариант, но не все api дают такой функционал.

llm для каждого следующего токена (не буквы, токен это может быть группа букв) дает массив вероятностей logits - такой то токен может быть тут с такой то вероятностью.

В указанным выше мной алгоритме это можно использовать, перебирать не все буквы, а все токены из logits с вероятностью выше некоторого порога (обычно выбираются условно 95%-ый а мы будем перебирать все выше 1%), в этом случае нам даже не нужно от модели получать информацию о не существовании слова, тут же можно с помощью structured outputs (у llama.cpp это граматика) определить только те токены, из которых мы ожидаем слово. Т.е. промпт будет примитивным, только ограничивающим тип слова, типа "non english word example: v" и запускаешь completion запрос, так же если использовать vllm или llama.cpp напрямую а не через api, можно напрямую управлять кешем, какую часть промпта кешировать, это еще добавит производительности (в разы).

К сожалению сюда попадут типовые ошибки записи слов, словоформы и сокращения, в общем все что в разговорном и чатах используют.

Написано час назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 269 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 190 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 435 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 477 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Python Developer

ITK academy • Воронеж

от 75 000 ₽

Go developer/ Software engineer (Yandex BareMetal)

Яндекс • Москва

от 350 000 ₽

Answer 1 · 2026-12-29 09:13:44

за 1 промпт нет, так как это специфика обучающей выборки. Вообще такие запросы ИИ совершенно не должен уметь обрабатывать. Это не слепок интернета, что бы с ним сравнивать.

Но можно повысить температуру (экспериментально) и сделать 100500 запросов (можно одинаковых, можно слегка менять, вплоть до удвоения пробелов в случайных местах), после чего собрать полученные ответы и убрать дубликаты (отдельным запросом)

p.s. то что вам модель что то ответила, не значит что она сделала это правильно

p.p.s. современные openai модели, даже по api, перед ответом копаются в интернете, и собирают ответ от туда.

upd. помним, что llm решает задачу 'странным способом', мы ей даем начало фразы, а модель ее пытается продолжить, добавляя один символ. Этим можно и воспользоваться, делаем скрипт, который перебирает все комбинации символов, начиная с длины один, добавляя эту комбинацию к промпту, и ждет от модели продолжение (ограничить несколькими символами, макс длина слова), промпт составить таким образом что бы модель либо ругнулась - нет такого слова, либо дописала слово. Если слово дописывает, то мы запускаем перебор всех символов с нашим текущим преффиксом (рекурсивно) и отправляем модели на проверку уже эти дополненные. Если слово модель дописать не может, мы делаем еще несколько попыток с разным seed (есть разные ухищрения что бы не увеличивать температуру) и если все они дают none то не продолжаем с этим преффиксом.
Таким образом мы перебираем все комбинации букв, пропуская сразу заведомо неправильные. Можно дополнительно делать запрос с каждым найденным словом, на проверку соответствия нашему условию, пусть дает объяснение что это за слово (можно хитро составить промпт, заставить модель сомневаться в том что слово настоящее, оно тогда меньше галлюцинирует) таким образом прогнав 100500 слов через модель можно вытащить ее внутренний словарь и даже знания по каждому.

Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт