Глоссарий
Prompt Win Rate (доля «выигранных» промптов)
По каждому промпту — «зачёт» или «незачёт», потом доля зачётов.
Хорошо сочетается с LLM-Score и fanout-запросами.
Определение
Доля выигранных промптов (по-англ. часто пишут Prompt Win Rate) — метрика, которая считает, у скольких вопросов из пакета промптов ответы моделей удовлетворяют явному критерию: бренд назван верно, нет запрещённой ошибки факта, бренд входит в топ рекомендаций и т.п. В отличие от сводного балла 0–100, долю зачётов проще объяснить руководству: «из 50 сценариев категории мы выиграли 37».
Пример
Критерий зачёта: «бренд назван в первой тройке и цена совпадает с сайтом». Из 40 пар «вопрос × модель» прошли 28 — доля 70%. Если неделю назад было 45%, сдвиг, скорее всего, от ответа на контент, а не от «шума» в формулировках.
Как считается
Для каждой пары «вопрос × модель» ответ прогоняется через автоматические проверки (поиск сущностей в тексте, классификаторы, шаблоны) и при необходимости ручную проверку спорных случаев. Доля = число зачётов ÷ число допустимых вопросов; из знаменателя исключают заведомо неприменимые или отсечённые фильтром безопасности модели запросы.
Как это работает на практике
Как используют команды
- Недельные замеры — сравнить долю зачётов до и после публикации нового блока вопросов и ответов.
- По моделям — если выигрывает ChatGPT, а YandexGPT нет, усилите локальные источники и русскоязычные страницы.
- С размножением формулировок — считайте долю на перефразах, чтобы победа не держалась на одной удачной фразе.
Как читать показатель
Высокая доля зачётов при плохой тональности всё равно требует работы с контентом — смотрите цитаты, а не только процент.
Когда использовать
- Когда нужен простой числовой показатель для руководства рядом с LLM-Score.
- Для жёстких сценариев (финансы, медицина, юридические формулировки): зачёт/незачёт однозначен.
- Для еженедельных отчётов агентств по одному и тому же списку вопросов.