Задать вопрос
@lemma_dev
Разработчик ПО

Как вы тестируете LLM-фичи в продакшене?

Стало интересно, как в других командах с этим работают и какие практики реально используются.

Делаю AI-first продукты, и со временем упёрся в вопрос: как вообще понять, что поведение LLM «достаточно корректное», чтобы это можно было спокойно выкатывать в прод.

Для себя в итоге сделали легковесный тулсет поверх Vitest и Playwright для проверки LLM-ответов — но пока не уверен, насколько это вообще универсальная проблема и стоит ли это развивать дальше.

Хочу собрать реальные подходы (не теорию) и обсудить:
Как у вас сейчас выглядит процесс проверки того, что ответ LLM «достаточно корректный»?
В чём, по вашему опыту, самый большой разрыв между тестированием обычного кода и AI-фичей?
Если бы вам нужно было объяснить новому разработчику, почему ваша LLM-фича «работает», на что бы вы сослались?

Буду рад любым практическим кейсам — даже если всё пока на костылях
  • Вопрос задан
  • 231 просмотр
Подписаться 3 Простой 1 комментарий
Пригласить эксперта
Ответы на вопрос 1
opium
@opium
Просто люблю качественно работать
Для JS-стека — promptfoo. Yaml с тест-кейсами, LLM-as-judge оценщик, CI из коробки. Ключевой сдвиг мышления: тестируешь поведение, не exact-match — "нет ли галлюцинации на этом кейсе", "правильный формат ответа", "тональность ок". Накапливай golden dataset из реальных прод-запросов — это лучше синтетики.

p.s. твой Vitest+Playwright ок, но это e2e, а не eval
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы