Какая модель LLama лучше для использования в telegram?

Question

Stung @Stung

Программист

Какая модель LLama лучше для использования в telegram?

Здравствуйте!
Я бы хотел узнать, могут ли модели Llama принимать несколько запросов от пользователей и выдавать свой ответ как chatgpt.
Если не трудно, можете ответить на вопрос предоставив информацию по определенной модели, и как это может быть реализовано, в telegram для обработки и ответа на запросы пользователя.
Спасибо!

Вопрос задан 11 мая
145 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Telegram

Простой
Как сбросить ссылку?
- 1 подписчик
- 2 часа назад
- 11 просмотров
0

ответов
Telegram

Средний
Как убрать пустые медиафайлы в телеграмме?
- 1 подписчик
- 18 часов назад
- 36 просмотров
0

ответов
Telegram

Простой
Может ли быть забанена группа в телеграм?
- 1 подписчик
- вчера
- 85 просмотров
2

ответа
JavaScript

+3 ещё

Простой
Как запустить Telegram mini-app на локальном хосте?
- 1 подписчик
- вчера
- 165 просмотров
1

ответ
Telegram

+1 ещё

Средний
Как получить информацию об общих папках в telegram?
- 2 подписчика
- вчера
- 32 просмотра
0

ответов
Python

+2 ещё

Простой
Как боту telebot/python запретить пользователю пересылку сообщений из чата (сообщений бота)?
- 1 подписчик
- 24 июл.
- 67 просмотров
1

ответ
Python

+2 ещё

Простой
Бот на python/telebot не приветствует новых пользователей, что не так?
- 1 подписчик
- 24 июл.
- 66 просмотров
1

ответ
Telegram

Простой
Ссылка на самого себя в telegram?
- 1 подписчик
- 24 июл.
- 95 просмотров
2

ответа
Telegram

Простой
Как получить username пользователя имея id без использования telegram web, но используя Python?
- 2 подписчика
- 23 июл.
- 161 просмотр
1

ответ
Telegram

+2 ещё

Средний
Как получать уведомление от телеграм при наличии ключевого слова?
- 2 подписчика
- 22 июл.
- 100 просмотров
0

ответов
Показать ещё Загружается…

Golang разработчик

Intelinvest

от 60 000 ₽

Преподаватель по разработке игр и ботов на Python

CODDY

от 40 000 ₽

Python Backend (Senior)

BullGlobal

от 5 000 $

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

Сделать логотип в векторе

26 июл. 2024, в 22:02

2000 руб./за проект

Answer 1 · 2024-05-11 09:58:09

Какая? llama3-70b наилучшая из открытых (те что можно запустить у себя), или command r+. Так же хорошие открытые модели основанные на mixtral (mixtral-8x22b). llama3-8b тоже не плохая для своего размера (запустится на 8-16Gb десктопных видеокартах).
https://chat.lmsys.org/?leaderboard

Llama это модель, она ничего не может, это файл на диске. Для того чтобы модель работала тебе нужна программа, например с гитхаба официальный пример на python (он очень простой, там буквально 5-10 строчек)

Не рекомендую прямо в боте telegram вставлять работу с gpt, т.е. это можно и даже будет работать но помятуя что у gpt высокие требования к железу (оперативная память) это будет не эффективно.

Готовый сервер идет в поставке с llama.cpp (запросы api по http), он же умеет обрабатывать одновременно несколько запросов (по умолчанию 10 одновременных потоков кажется) так же есть возможность самому собирать запросы в пакет и отправлять одним запросом в сервер, он все обработает и вернет, и по скорости это будет быстрее чем каждый по отдельности (особенно когда работа на gpu).

Программирование ботов gpt - это придумывание запросов на естественном языке, которые дополняются данными от пользователей или еще какими (например обычный запрос в классическую базу, вываливая в промп тупо текстом, к примеру csv форматом). У тебя ограниченное количество ресурсов, маленькое окно контекста (у llama это 8к токенов) и в попытке все туда уместить и приходится что то поверх городить. тупой пример - если ты будешь весь чат пихать в контекст, уже через 20-30 сообщений он переполнится, и нужно будет принимать решение что и как выкидывать.

А еще llama любит отвечать лишнее, т.е. ты ее просишь ответь числом, а оно отвечает - ваш ответ 3... вот эти 'ваш ответ' нужно как то выявлять. А еще модели лучше работают, если просить их по рассуждать, она тебе даст рассуждения, тебе они нафиг не нужны, как из них результат вычленить? Иногда можно отделить мусор от ответа, попросив его дать в каком то формате, например дай ответ в формате json, а так как запрос к gpt это часть беседы в форме чата, можно дать часть ответа прямо в промпте, например "...assitent: {" тогда у модели не останется варианта как сразу фигачить json.

Но чем больше ограничений ты даешь модели тем хуже ее качество ответов.

У llama.cpp есть механизмы задания gramma формата ответа, какие токены предпочтительнее и в каком формате, говорят не идеально реализовано (например не получится задать варианты ответов списком слов типа отвечай только название цвета 'красный', 'зеленый', 'желтый', 'другое',..)

Какая модель LLama лучше для использования в telegram?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт