P2P оценка и как с ее помощью будут оцениваться работы участников конкурса.

P2P оценка и как с ее помощью будут оцениваться работы участников конкурса.

Gleb Kudriavtcev

Итак, при подготовке конкурса мы знали, что нам нужно будет как-то оценивать работы. А вот как - хороший вопрос!

Выбираем способ оценки

Давайте рассмотрим основные условия, которые мы принимали во внимание:

  • Мы не можем сделать рейтинг, не оценивая работы, поэтому оценка в принципе должна быть.
  • Оценка должна быть достаточно точной, иначе мы не достигнем цели выявления лучших людей на рынке.
  • Мы физически не можем лично оценить больше 50-100 человек. Это техническое ограничение для большого рейтинга. А мы планировали гораздо больше участников! В нем значимо попадание не только в первую десятку, но и в первую сотню и даже далее. То есть нужна способность масштабироваться.
  • Хотелось бы максимально нивелировать субъективный фактор. Когда привлекается "высокое жюри", это автоматически порождает вопросы доверия или недоверия к этому составу. И это сразу переносится на весь рейтинг. Нам нужен максимально объективный и независимый инструмент.

Когда начинаешь разрешать этот набор противоречий, то в первую очередь в голову приходит какой-то автоматизированный тест или подобная форма задания с заранее готовыми ответами.

Но в чем проблема теста? То, что ответы к нему можно загуглить. Между тем, умение гуглить - это необходимое качество любого современного специалиста и мы не хотим его ограничивать. Наоборот, его стоит всячески поощрять. Вдобавок, работа продуктового менеджера творческая и по своей природе намного сложнее того, что можно упаковать в формат простого тестирования.

Поэтому мы подумали - а что, если работы будут оценивать сами участники? Звучит необычно, но как идея - вполне себе. Однако, сразу возникает куча вопросов.

Например, а это вообще возможно? Звучит как готовая площадка для злоупотреблений. Ведь я просто оценю себя высоко, а всех конкурентов низко - это выгодно, поэтому я так и сделаю. Ну и где тут рейтинг?

В этот момент мы решили посмотреть, как эту проблему решают в мире, и начали искать соответствующую литературу. И оказалось, что проблема p2p оценок достаточно хорошо проработана. Более того, есть исследования, которые доказывают ее высокую эффективность при сравнении с экспертными оценками.

Судя по научной литературе - p2p оценка возможна

Вот основные секреты, которые мы почерпнули:

  • На оценку участникам нужно давать не свою, а только чужие работы. Причем чужих работ дается много - это повышает точность за счет уменьшения субъективного фактора и перекрестного оценивания.
  • На итоговое место влияет не только то, как ты сам выполнил работу, но и то, насколько корректно ты оценил работы других. Это способ наказания "оппортунистов" - тех, кто специально искажает рейтинг, чтобы получить нечестные преимущества для себя или просто из хулиганских побуждений :)
  • Есть два способа оценки. Один - через выставление баллов, он называется кардинальным. Второй - через сравнение работ по принципу "лучше-хуже", он называется ординальным. Так вот, ординальный способ показывает сравнимую с кардинальным точность, но значительно проще для оценивающих.

Алгоритмы для ординального оценивания достаточно сложны. Но по сути каждый из них дает на выходе рейтинг участника плюс индекс доверия - насколько адекватны его собственные оценки других (кому интересно - можете почитать оригинальную работу).

Отлично, значит можно просто взять готовый алгоритм и все?

Не совсем.

Во-первых, есть несколько возможных вариаций способов оценки в рамках одного алгоритма.

Во-вторых, нам нужно понять, а сколько же работ должен оценить каждый участник, чтобы мы достигли достаточной точности?

И тут у нас нашлось нечестное преимущество. Оказалось, что Паша Шишкин в свое время был победителем международных конкурсов по программированию и он может быстро построить эту модель :)

Вот, что мы сделали:

Мы сгенерировали датасет из 300 работ и каждой из них назначили некий "идеальный рейтинг качества". Из 300 оценивающих 20% назначили оппортунистами - их задача ставить случайные оценки и всячески портить рейтинг. Величину в 300 взяли как максимум того, что у нас может получиться из тысячи регистрацие.

А далее рассматривали три варианта оценки:

  • Каждый оценивает случайные N пар работ
  • Каждый оценивает N пар работ, набранные из одной десятки (т.е. некоторые работы оценке повторялись в разных парах)
  • Каждый оценивает N работ, располагая их последовательно по убыванию качества.

И три варианта N:

  • 6
  • 8
  • 10

Все это скормили алгоритму. А на выходе смотрели следующие параметры:

  • Какой процент лучших 20% работ реально попадает в лучшие 20%?
  • Какой процент из исходных 20% оппортунистов реально попадает в худшие 20%?
  • Каково среднеквадратничное отклонение места участника, предсказанного алгоритмом от его истиного рейтинга?

Не буду утруждать вас всеми цифрами, скажу лишь, что победил вариант последовательной оценки 10 работ. Попарные сравнения или уменьшение числа работ показали себя непропорционально хуже.

Результаты прогона финального варианта выделены на рисунке красным

И этот алгоритм показывает отличные результаты:

  • 95% точность того, что лучшие 20% участники реально попадают в лучшие 20%
  • Около 100% точность того, что 20% оппортунистов реально попадают в худшие 20%
  • Среднеквадратичное отклонение в 7. То есть средний случайный разброс не более чем +- 2.7 позиции от места идеального рейтинга (и это на 300 участниках!)

Таким образом, мы выбрали нашу методику для оценки

Конечно, данные оптимистичные показатели еще нужно будет подтвердить в реальной жизни! Но моделирование позволило нам окончательно определиться, какое же задание на оценку мы дадим участникам. Было решено давать в оценку 10 работ. Больше уже нет особого смысла, меньше достаточно сильно падает точность.

Взять в качестве задания именно линейный грейдинг, т.е. расставить задания по убыванию качества их решения, а не сравнивать попарно. В линейном грейдинге есть сложные моменты. Например, что делать если две работы довольно похожи? Или, когда из трех работ ABC, есть ощущение, что A>B, B>C, но C>A? Это мы решили дать на откуп нейросеткам в головах конкурсантов :) И именно в этом состоит сила такой оценки - мы максимально учитываем субъективный фактор каждого из участников, и все вместе это уже составляет объективную оценку работы.

Так что если у вас были вопросы к методике оценки, надеюсь, мы на них ответили.

Загружайте работы, готовьтесь оценивать товарищей и не будьте оппортунистами! 


Report Page