Пост рефлексии о бенчмарке
Ekaterina Yakunenko, канал @delay_RAGВ декабре 2025 года я с помощью 11 коллег, согласившихся уделить своё время на чтение большого количества нейросетевого текста, провела небольшой любительский human-eval бенчмарк (то есть без автоматизированной проверки по эталонным ответам) 5 нейросетевых сервисов, используемых в юридических задачах. В отчёте по ссылке максимум деталей об эксперименте, а в этом посте я хотела бы зафиксировать свои мысли об этом опыте и суммировать полученную обратную связь от сообщества.
На уровне эмоций есть два плана: мой личный и реакция сообщества.
Мне было очень интересно этим заниматься: сюда были направлены самые сильные мои компетенции (метод-дизайн, последующая аналитика и возможность «развернуться», подробно показав изнутри весь процесс). Это по сути работа по соотнесению реальной супер-нюансированной и хаотичной юридической практики с высокоабстрактным уровнем статистики. И эта работа внезапно стала актуальной с появлением LLM и конкурирующих сервисов для юристов. Точнее эту актуализацию я для себя вижу как в каком-то смысле «идеологическую» стратегическую задачу: юристы ничем не хуже других областей знаний, где бенчмаркинг — абсолютная норма, и нужно, чтобы как можно больше использующих нейронки юристов знали о таком способе оценки качества моделей.
Про общественную реакцию — из всех моих проектов за прошедшие полгода на бенч она получилась самой бурной (буря в стакане воды, конечно, но в моих личных масштабах это действительно очень значимо). Думаю, здесь несколько причин, одна из главных — люди любят конфликты, соревнования и сравнения (думаю, это какие-то примитивные механизмы нашего мозга), даже если сравнивают вот эти вот электронные сущности без особой шоу-помпы. Второе — юридическая практика и юридическое знание очень далеки от всех этих формул, графиков, непараметрической статистики и ранговой корреляции… и что это вообще за страшные слова? Какой линейкой это ты тут что-то измеряешь? А точно ли у тебя правильная линейка? В общем любопытство, помноженное на подозрение и некоторое сопротивление. Ну и третье — просто какая-то новая необычная штука появилась.
И реакция была от токсичной (в единичных проявлениях типа «не взять chatGPT — это кринж») до не просто конструктивной, а, я бы даже сказала за неимением другого слова, illuminating. И поскольку одной из задач на первый квартал следующего года мне хочется видеть если и не новый бенч, то какую-то адекватную методологию (разработанную советом инициативных умников, этакий White paper, рекомендованный сообществом стандарт проведения бенчмарков), для старта хочу здесь собрать основные идеи, возражения, комментарии, поступившие за прошедшие несколько дней.
Разбила их по смысловым группам:
1. Кто и как оценивает (субъект и процесс оценки)
Проблемы:
- субъективность и противоречивость human-eval, невозможность полностью её устранить
- влияние на оценку узнавания модели оценщиком
- разный уровень экспертизы оценщиков в разных областях
Идеи:
- LLM-as-a-judge как более надежный метод, выражающий позицию «коллективного разума»
- метод Дельфи («второй раунд»)
- использование эталонных ответов от мэтров отрасли или базовых судебных решений для упрощения работы оценщиков
2. Критерии оценки
Проблемы:
- использование эталонных ответов подходит не для всех ситуации (вопросы-кейсы, где нужно приняти риски, определить тактику / схему)
- в силу разных доктринальных позиций в праве часто нет единственно правильного ответа
- оценщикам предложены взятые «с потолка» критерии оценки, усиливающие субъективизм, а не какая-то четкая шкала
Идеи:
- 100-балльная шкала вместо ранжирования (я ещё в процессе вспомнила своё муткортовское прошлое и судейство в настоящем, и это повышает объективность, но очень усложняет работу оценщика)
- использование в экспериментах «простых вопросов» с эталонными ответами и «вопросов-кейсов» с разными системами оценки
3. Дизайн эксперимента
Проблемы:
- формат «1 вопрос = 1 ответ» наказывает модели, настроенные на диалог, хотя это корректное поведение при неполных данных
- неравные условия между моделями, так как разные выбранные мной модели экипированы разновесными «фишками»: у одних RAG, у других — специализированный датасет, у DeepSeek — ничего, да ещё и без Интернета
- некоторые модели умеют давать убедительный, но неправильный ответ, чего не замечают оценщики без экспертизы в вопросе
Идеи:
- механизм поощряющего коэффициента за дополнительные вопросы при неполных данных
- pass/fail оценка для вопросов с неполными данными: если модель додумывает — 0, если признаёт недостаток данных — поощрение
- вопросы с ловушкой (ложные утверждения в условии) для проверки критичности модели
- единое контекстное окно: приложить к вопросу сниппет с релевантными правовыми материалам
4. Качество и формулировка промптов (вопросов)
Проблемы:
- наводящие конструкции влияют на «вектор» ответа и забирают токены у малых моделей
- часть вопросов вызвала низкую уверенность у всех экспертов
- низкая согласованность при высокой уверенности — маркер того, что оценщики не знают правильный ответ, но уверены в своём мнении
Идеи:
- промпт-инжиниринг: не избыточный (с ориентацией на то, как используют нейросети средние компетентные юристы), но корректный
5. Изоляция UX/оформления от оценки содержания
Проблемы:
- markdown-оформление влияет на восприятие (некоторые оценщики повышали баллы за красивое форматирование)
- узнаваемость модели по «вайбу» и вводным конструкциям сохраняется даже при обезличивании
Идеи:
- обфускация через SOTA-модель («унифицируй тон и оформление»)
- инструкция оценщикам не обращать внимания на оформление
6. Обработка и интерпретация результатов
Проблемы:
- парадокс: высокая уверенность + низкая согласованность — определение роли таких вопросов (исключение из рейтинга / коэффициенты / отдельный анализ)
- возможная инверсия результатов: если оставить только экспертов с высокой экспертизой, рейтинг может перевернуться
Идеи:
- смещать оценку по формулам (возможно, уже придумано в других областях)
- изучить опыт медицинских разметок, где тоже низкая согласованность экспертов
7. Выбор моделей и охват
- почему именно эти модели / почему не было модели Х?
- корректность сравнения специализированных моделей с моделями общего назначения
8. Масштабирование и развитие проекта
- сделать коммьюнити-проектом и выпустить White paper / стандарт рынка
- оформить как научную работу / подать на грант
- привлечь статистиков/социологов/психологов/психометриков (и уже даже есть нужные контакты, представляете)
В общем я очень довольна результатами этой работы, обратной связью и ещё раз хочу всех поблагодарить. Со своей стороны постараюсь приложить максимум усилий, чтобы культура независимого бенчмаркинга прорастала на нашем юридическом поле, и в ближайшее время рассчитываю вернуться с новостями.