Когда применять Prompt Win Rate?

Когда нужен простой числовой показатель для руководства рядом с LLM-Score. Для жёстких сценариев (финансы, медицина, юридические формулировки): зачёт/незачёт однозначен. Для еженедельных отчётов агентств по одному и тому же списку вопросов.

Глоссарий

Prompt Win Rate (доля «выигранных» промптов)

Prompt Win Rate — доля промптов из фиксированного набора, где бренд проходит заданное правило успеха: корректное упоминание, безопасный факт, позитивный контекст и т.д.

По каждому промпту — «зачёт» или «незачёт», потом доля зачётов.
Хорошо сочетается с LLM-Score и fanout-запросами.

Определение

Доля выигранных промптов (по-англ. часто пишут Prompt Win Rate) — метрика, которая считает, у скольких вопросов из пакета промптов ответы моделей удовлетворяют явному критерию: бренд назван верно, нет запрещённой ошибки факта, бренд входит в топ рекомендаций и т.п. В отличие от сводного балла 0–100, долю зачётов проще объяснить руководству: «из 50 сценариев категории мы выиграли 37».

Пример

Критерий зачёта: «бренд назван в первой тройке и цена совпадает с сайтом». Из 40 пар «вопрос × модель» прошли 28 — доля 70%. Если неделю назад было 45%, сдвиг, скорее всего, от ответа на контент, а не от «шума» в формулировках.

Как считается

Для каждой пары «вопрос × модель» ответ прогоняется через автоматические проверки (поиск сущностей в тексте, классификаторы, шаблоны) и при необходимости ручную проверку спорных случаев. Доля = число зачётов ÷ число допустимых вопросов; из знаменателя исключают заведомо неприменимые или отсечённые фильтром безопасности модели запросы.

Как это работает на практике

Как используют команды

Недельные замеры — сравнить долю зачётов до и после публикации нового блока вопросов и ответов.
По моделям — если выигрывает ChatGPT, а YandexGPT нет, усилите локальные источники и русскоязычные страницы.
С размножением формулировок — считайте долю на перефразах, чтобы победа не держалась на одной удачной фразе.

Как читать показатель

Высокая доля зачётов при плохой тональности всё равно требует работы с контентом — смотрите цитаты, а не только процент.

Когда использовать

Когда нужен простой числовой показатель для руководства рядом с LLM-Score.
Для жёстких сценариев (финансы, медицина, юридические формулировки): зачёт/незачёт однозначен.
Для еженедельных отчётов агентств по одному и тому же списку вопросов.

Пакет промптов LLM-Score Размноженные запросы (fan-out)Датированный снимок

Прогнать пакет промптов по бренду