Задать вопрос

Как быстро войти в тему разработки ChatGPT, LLM Agent и т.п.?

Хочу попробовать себя в разработке приложений на базе LLM, но не знаю с чего начать. В сети масса разрозненной информации, которую пока не получается собрать воедино. Подскажите, какой стек технологий стоит использовать, как настроить взаимодействие компонентов между собой? Может быть есть ссылки на какие то практические курсы? Желательно все настроить локально.

Для определенности, возьмем для примера такую задачу:
Есть отдел продаж, который совершает телефонные звонки, имеются записи этих звонков. Необходимо их анализировать в (полу)автоматическом режиме и ставить оценку менеджеру с комментариями о плюсах и минусах проведенной беседы. В качестве дополнительной информации для оценки можно использовать базу часто задаваемых вопросов, скрипт звонка, список тем, которые менеджер должен был проработать.

Сейчас я могу распознавать запись локально с разбиением по спикерам с помощью Faster-Whisper-XXL
Так же локально поднял ollama, для экспериментов использую LM Studio, AnythingLLM, пробую разные модели доступные на Hugging Faces. Поддержку RAG не сделал, оценку звонка сделать удалось, но результат слабоват. И все пока в ручном режиме.

Как упаковать все это в готовое локальное решение?
- Передаем в систему запись звонка
- Вызываем внешний процесс для распознавания речи
- Передаем распознанную речь в модель для оценки
- Выводим результат распознавания и результат оценки

В какую сторону копать, какие инструменты использовать, какие курсы мне помогут в реализации чего то подобного?
  • Вопрос задан
  • 73 просмотра
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 1
@rPman
Разве эта задача решается легко? а как ее решали до сегодняшнего дня? что является критерием оценки качества беседы?

У тебя вроде все указано нужное - whisper получает текст, может с временными метками (хз что такое faster-whisper-xxl, есть есть официальная утилита на python - pip install whisper в консоли задаешь модель и кучу параметров и получаешь текстовый файл).

Результат слабоват, потому что инструменты такие. Выбирай по умнее. И не забывай, что с русским языком локальные ИИ работают значительно хуже чем с английским (или если это qwen еще и китайский).

Не пытайся решать задачу одним промптом. Набрасывай на проверяемые данные несколько промптов, по очереди (не одним чатом, а каждый раз заново). Кстати есть замечание, разные сети по разному реагируют на размещение вопроса перед данными и после (есть соблазн размещать данные в начале, потому что тогда работает кеширование и входной текст не обрабатывается заново), т.е. можно данные+вопрос и вопрос+данные

а еще бывает вопрос+данные+фразы_помощники типа 'глубоко вдохни и подумай шаг за шагом', 'ты уверен, а если подумать еще раз', 'и какой будет твой окончательный ответ' а так же извлечение строгого ответа из ответа в свободной форме, ведь если сразу ограничить формат ответа, то качество будет хуже..

еще есть совет, делать несколько прогонов одной и той же задачи и смотреть, как будут отличаться результаты, если гулять сильно, значит повод задуматься об изменении подхода или алгоритма.

Добавь сюда ручную проверку человеком (например случайные результаты проверки) и сохраняй в табличку для анализа, как часто ИИ ошибается и в каких случаях, поможет тюнить промпт и вообще следить за тем бардаком, что вытворяет ИИ.

upd. настоятельно рекомендую использовать 70b модели (та же qwen или llama3.3 например). При использовании младших моделей, старайся не использовать квантизацию, она их ломает сильнее чем для старших версий... используй 8bit, не меньше.

Мне нравятся модели deepseek distilled qwen 14b или 32b? 14b с полным контекстом можно запустить на 2x16gb nvidia 4060ti, при этом рекомендую использовать vllm а не llama.cpp (каждая стоит 50т.р. дешевле ну просто некуда) на скоростях с батчингом до тысячи tps (16 параллельных запросов мне давали 800tps ну а vllm при запуске обещал 31k tps)... внимание, промпты и ответ только на английском, но русский вроде понимает
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы