Как пользоваться языковой моделью LLaMa?

Question

rPman @rPman

Нейронные сети

Как пользоваться языковой моделью LLaMa?

Благодаря 'публикации' в интернете весов языковой модели LLaMa а так же таким проектам как llama.cpp появилась возможность поиграть с большим ИИ не в облаке от openai да еще и на дешевом оборудовании на процессоре (64Gb ram использую 65B модель с 4bit quantize).

Судя по тому как меняется качество 'ответов' сети в зависимости от построенного запроса, есть какое то правило, на основании которого исследователи facebook строили обучающие данные для этой модели. В частности такие ключевые слова как ### Instruction: ### Input: ### Question: в конце должен стоять ### Response: ### Answer:, и количество \n перед/после них и запроса тоже важны (долго не мог понять почему если я свой запрос делаю в одной строке с этими ключевыми словами или с одним \n сеть почти всегда несет пургу). Еще в моменты бреда, модель начинает выдавать другие ключевые слова как ### Explanation: ### Annotation или ### Output

Отсюда вопрос, нет ли какой то полной инструкции по форматам запросов, или возможно кто то уже исследует возможности и нашел закономерности? Очень уж качество разительно меняется, если ей задавать ожидаемую ей разметку.

p.s. у ggerganov в github в ветке mmap-preload загрузка весов модели переделана на mmap, т.е. они теперь хранятся в кеше ОС и при повторном запросе время на их загрузку не тратится (можно одновременно запустить два приложения)

Вопрос задан более двух лет назад
999 просмотров

10 комментариев

Подписаться 7 Сложный 10 комментариев

Viktor T2 @Viktor_T2

На дваче спроси :)
Там хоть кто-то чем-то таким интересуется.
https://2ch.hk/ai/res/201813.html

Написано более двух лет назад
rPman @rPman Автор вопроса

Viktor T2, не лучше место для чтения. Как в помойку головой окунулся

Написано более двух лет назад
Viktor T2 @Viktor_T2

rPman, Ну, это да.

Написано более двух лет назад
Владимир @Degot
Разные модели по разному тюнингуются всякие форматы инструкций и тд и тп... Мне нравиться gpt4all-lora-quantized и vicuna-13b... Причём для gpt4all-lora-quantized в качестве prompt'а использую Miku:

main.exe --model ".\models\gpt4all-lora-quantized-new.bin" --batch_size 2048 --ctx_size 4096 --keep -1 --repeat_last_n 256 --repeat_penalty 1.17647 --temp 0.7 --top_k 40 --top_p 0.5 --n_predict 4096 -t 14 --color --interactive --reverse-prompt "Anon:" --file ".\prompts\miku.txt"

Советую использовать модели GPT4ALL, LORA, Vicuna с соответствующими Prompt'ами... А не голые Alpaca, Llama...
Пробовал Alpaca 65B, но тк она не причёсана, но и "человечности" поменьше.
P.S. Miku.txt я из github.com/ggerganov/llama.cpp/blob/master/examples/Miku.sh вытащил.
Написано более двух лет назад
Viktor T2 @Viktor_T2

На хабре тоже можно спросить - https://habr.com/ru/news/727032/

Написано более двух лет назад
Hemul GM @HemulGM

Эта модель даже близко к gpt3 не стоит, не то что gpt4. Другими словами - это говно, а не модель

Написано более двух лет назад
rPman @rPman Автор вопроса

Hemul GM, а вы пробовали gpt?
напоминаю, chatgpt это продукт, созданный с использованием gpt (у openai несколько моделей доступны по api), там текст не отправляется тупо в языковую модель (или к примеру отправляется модифицированным сразу в несколько для классификации например), так же модель должна быть предварительно подготовлена, один из лучших способов улучшения ответа сырой языковой модели - добавление предварительного текста к вопросу, например бенчмарки используют технику one-shot (добавляют к вопросу спереди другой вопрос с ответом, так сеть на основе примера понимает что от нее хотят)
p.s. https://www.inovex.de/de/blog/prompt-engineering-guide/

есть разные базы и алгоритмы данных для сравнения больших языковых моделей (гуглить картинки с таблицами - quality comparison ai big language models palm lambda gpt3 llama)

p.p.s. https://the-decoder.com/metas-llama-language-model...

Написано более двух лет назад
Hemul GM @HemulGM

rPman, и что? Я знаю API OpenAI, знаю, какие модели они предоставляют. И нет, лучшим способом для улучшения ответа является настройка модели, в OpenAI это делается через FineTune, что порождает новую, твою личную модель.

Другой момент, это то, что вы говорите о разном. Вы пытаетесь сказать, что LLaMA не хуже GPT, и в то же время говорите о том, что чат гпт отправляет не напрямую в модель, а добавляя предыдущие ответы и вопросы. Что является контекстом для последующего разговора в рамках конкретного чата. Я сам делал чат на основе gpt-3.5-turbo, я знаю о чем говорю.

Основные отличия GPT от LlaMA - кол-во входных данных (в Ламе их просто на порядок меньше) и масштабы обучения. LLaMA проигрывает тут просто колоссально

Написано более двух лет назад
rPman @rPman Автор вопроса

Если говорить хочешь с позиции циферок, то лучше сравнивать не размеры пис*к, а то гугловский PaLM 540B должен всех победить а он просто на среднем уровне находится (иногда хуже ламы)

Лучше брать тесты:
https://paperswithcode.com/sota/question-answering... - llama 85.3 vs gpt3 76.4
https://paperswithcode.com/sota/question-answering... - llama 82 vs gpt3 81
https://paperswithcode.com/sota/question-answering... - llama 60.2 vs gpt3 57.6
https://paperswithcode.com/sota/sentence-completio... - llama 84.2 vs gpt3 79.3, gpt35 85.5, gpt4 95.3
https://paperswithcode.com/sota/common-sense-reaso... - llama 77 vs gpt3.5 81.6, gpt4 87.5
внимание, при в двое меньшем объеме сети качество сравнимо с gpt3.5 либо не сильно хуже

подробнее https://paperswithcode.com/paper/llama-open-and-ef...

p.s. у меня есть мнение что фейсбуке сделала намеренно сеть публичной, так как осознают что ее качество низкое, выкидывать просто так жалко (деньги закопать) а так хоть какой то пиар эффект будет, а если сообщество сумеет запилить что то полезное, можно пальцем погрозить и платить заставить, забрав наработки себе само собой.

Написано более двух лет назад
rPman @rPman Автор вопроса

еще момент у llama очень маленькое окно контекста, кажется 2к токенов, это ее фатальная проблема, из-за которой для сохранения контекста ее лучше дообучать под каждую задачу.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 77 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 77 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 143 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 242 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 62 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 218 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 160 просмотров
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

На дваче спроси :)
Там хоть кто-то чем-то таким интересуется.
https://2ch.hk/ai/res/201813.html
Viktor T2, не лучше место для чтения. Как в помойку головой окунулся
Разные модели по разному тюнингуются всякие форматы инструкций и тд и тп... Мне нравиться gpt4all-lora-quantized и vicuna-13b... Причём для gpt4all-lora-quantized в качестве prompt'а использую Miku:

main.exe --model ".\models\gpt4all-lora-quantized-new.bin" --batch_size 2048 --ctx_size 4096 --keep -1 --repeat_last_n 256 --repeat_penalty 1.17647 --temp 0.7 --top_k 40 --top_p 0.5 --n_predict 4096 -t 14 --color --interactive --reverse-prompt "Anon:" --file ".\prompts\miku.txt"

Советую использовать модели GPT4ALL, LORA, Vicuna с соответствующими Prompt'ами... А не голые Alpaca, Llama...
Пробовал Alpaca 65B, но тк она не причёсана, но и "человечности" поменьше.
P.S. Miku.txt я из github.com/ggerganov/llama.cpp/blob/master/examples/Miku.sh вытащил.
На хабре тоже можно спросить - https://habr.com/ru/news/727032/
Эта модель даже близко к gpt3 не стоит, не то что gpt4. Другими словами - это говно, а не модель
Hemul GM, а вы пробовали gpt?
напоминаю, chatgpt это продукт, созданный с использованием gpt (у openai несколько моделей доступны по api), там текст не отправляется тупо в языковую модель (или к примеру отправляется модифицированным сразу в несколько для классификации например), так же модель должна быть предварительно подготовлена, один из лучших способов улучшения ответа сырой языковой модели - добавление предварительного текста к вопросу, например бенчмарки используют технику one-shot (добавляют к вопросу спереди другой вопрос с ответом, так сеть на основе примера понимает что от нее хотят)
p.s. https://www.inovex.de/de/blog/prompt-engineering-guide/

есть разные базы и алгоритмы данных для сравнения больших языковых моделей (гуглить картинки с таблицами - quality comparison ai big language models palm lambda gpt3 llama)

p.p.s. https://the-decoder.com/metas-llama-language-model...
rPman, и что? Я знаю API OpenAI, знаю, какие модели они предоставляют. И нет, лучшим способом для улучшения ответа является настройка модели, в OpenAI это делается через FineTune, что порождает новую, твою личную модель.

Другой момент, это то, что вы говорите о разном. Вы пытаетесь сказать, что LLaMA не хуже GPT, и в то же время говорите о том, что чат гпт отправляет не напрямую в модель, а добавляя предыдущие ответы и вопросы. Что является контекстом для последующего разговора в рамках конкретного чата. Я сам делал чат на основе gpt-3.5-turbo, я знаю о чем говорю.

Основные отличия GPT от LlaMA - кол-во входных данных (в Ламе их просто на порядок меньше) и масштабы обучения. LLaMA проигрывает тут просто колоссально
Если говорить хочешь с позиции циферок, то лучше сравнивать не размеры пис*к, а то гугловский PaLM 540B должен всех победить а он просто на среднем уровне находится (иногда хуже ламы)

Лучше брать тесты:
https://paperswithcode.com/sota/question-answering... - llama 85.3 vs gpt3 76.4
https://paperswithcode.com/sota/question-answering... - llama 82 vs gpt3 81
https://paperswithcode.com/sota/question-answering... - llama 60.2 vs gpt3 57.6
https://paperswithcode.com/sota/sentence-completio... - llama 84.2 vs gpt3 79.3, gpt35 85.5, gpt4 95.3
https://paperswithcode.com/sota/common-sense-reaso... - llama 77 vs gpt3.5 81.6, gpt4 87.5
внимание, при в двое меньшем объеме сети качество сравнимо с gpt3.5 либо не сильно хуже

подробнее https://paperswithcode.com/paper/llama-open-and-ef...

p.s. у меня есть мнение что фейсбуке сделала намеренно сеть публичной, так как осознают что ее качество низкое, выкидывать просто так жалко (деньги закопать) а так хоть какой то пиар эффект будет, а если сообщество сумеет запилить что то полезное, можно пальцем погрозить и платить заставить, забрав наработки себе само собой.
еще момент у llama очень маленькое окно контекста, кажется 2к токенов, это ее фатальная проблема, из-за которой для сохранения контекста ее лучше дообучать под каждую задачу.

Как пользоваться языковой моделью LLaMa?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт