Проблемы малой выборки в беттинге

Проблемы малой выборки в беттинге

Артём Gameleon

В текущем сезоне Реал Сосьедад наделал немало шума в чемпионате Испании: попадание на первое место в турнирной таблице после 10 туров, феноменальные результаты по xG и даже робкие надежды болельщиков на чемпионство. В данной статье мы на примере Реала Сосьедада рассмотрим проблему недостаточной выборки и разберемся, в чем же причина успеха басков на старте чемпионата в этом сезоне, а также сделаем важный вывод, который очень пригодится нам в ставках.

Оценка максимального правдоподобия

Структурная «предвзятость» при правильно проведенном отборе – очень сложная с математической точки зрения проблема. Идея ее заключается в том, что мы на самом деле обладаем неким априорным знанием вероятности обнаружения систем с заданной степенью предсказуемости.

Например, я даю вам мешок, наполненный 100 шариками, и говорю: в мешке от 0 до 100 шариков – черные, и от 0 до 100 шариков – белые (и что очень важно, все возможности одинаково вероятны, то есть, равновероятна возможность того, что в мешке 57 черных/43 белых шариков и 22 черных/78 белых шариков). Вы вытаскиваете шарик, записываете его цвет, откладываете его и повторяете данный процесс еще 9 раз, достав в общей сложности 9 белых шариков и 1 черный.

Исходя из вашего среднего выборочного значения (90% белых и 10% черных шариков), вы можете выдвинуть гипотезу, что мешок содержит 90 белых шариков и 10 черных. Это известно как «оценка максимального правдоподобия».

Но поскольку мы предполагаем, что каждая начальная конфигурация шариков была одинаково вероятной, наше выборочное среднее значение уже не будет служить наилучшей оценкой количества белых шариков в мешке (хотя асимптотически все-таки будет, и это означает, что по мере того, как количество шариков, которые мы отбираем, приближается к бесконечности, среднее значение выборки приближается к ожидаемому количеству белых шариков в мешке).

Другими словами, даже несмотря на то, что единственная наиболее вероятная возможность заключается в том, что в мешке действительно находится 90 белых шариков и 10 черных, ожидаемое количество (то есть, ожидание апостериорного распределения) белых шариков в мешке на самом деле ниже – около 83,32. Но если бы мы по условию вытаскивали не 10, а 90 шариков из 100, и вытащили бы 81 белый и 9 черных (как и в прошлый раз, 9 к 1), то наша беспристрастная оценка возросла бы и составила более 88 белых шариков.

Распределение истинных показателей успеха

Давайте перенесем наши рассуждения на ставки на спорт. Предположим, что у нас есть игрок. Он ставит на исходы, вероятность которых была оценена в линии в 50% (то есть, те исходы, которые без маржи букмекерской конторы имели бы коэффициент 2). Наш игрок поставил 40 ставок, из которых сыграли 29, то есть, 72,5% ставок.

В примере с шариками мы делали утверждение, что все возможные комбинации шариков в мешке равновероятны. Можем ли мы предположить для нашего игрока то же самое, то есть, предположить, что вероятность его успеха распределена равномерно? Что еще до самой первой из его 40 ставок он с одинаковой вероятностью мог оказаться на дистанции как пророком, прогнозирующим 100%, так и неудачником, который прогнозирует лишь 10% ставок (причем, как вы помните из условия, наш игрок не делал ставки на высокие коэффициенты с низкой вероятностью выигрыша, он делал ставки, которые линия на тот момент оценивала в 50%). На самом деле такое предположение нереалистично. Более вероятно, что распределение истинных показателей успеха будет высокопиковым с плоскими хвостами. Пик такого распределения приходится на 50%, а плоские хвосты подразумевают лишь незначительную вероятность того, что наш игрок найдет стратегию с очень высокой проходимостью. 

Суть данных примеров заключается в следующем: при экспериментальной вероятности успеха биномиального события ваш ожидаемый показатель успеха всегда должен быть сдвинут в сторону 50% (в сторону той вероятности, которая заложена в линии). Это необходимо из-за неэффективности оценки максимального правдоподобия в прогнозировании ожидаемой «истинной» вероятности успеха. Возвращаясь к примеру: даже если мы увидели, что игрок после 40 ставок показал результат в 72,5%, мы все равно можем быть уверены более чем на 99% в том, что истинная вероятность успешного прогнозирования ниже 65% (поскольку гораздо более вероятно, что игроку просто очень, очень повезло, чем то, что ему удалось найти систему, прогнозирующую более 65% побед в ставках на 50% события).

Коэффициент ручной коррекции

Для устранения этой проблемы я бы ввел коэффициент ручной коррекции, который увеличивается по мере отклонения результатов от ожидаемого пика в сторону хвостов. Также на данный коэффициент влияет размер выборки. Соответственно, чем ниже выборка и чем дальше мы смещаемся от пика в сторону хвостов, тем сильнее коэффициент будет корректировать наш результат в противоположную сторону (в сторону пика). Другими словами, если у нашего игрока было успешно спрогнозировано 72,5% ставок, я бы скорректировал эту оценку в сторону понижения, скажем, до 56-57%. И вот эту цифру уже можно рассматривать как нашу беспристрастную оценку вероятности успешных ставок, например, для определения их размера по критерию Келли. С ростом выборки и с изменением процента успешно спрогнозированных ставок необходимо продолжать корректировать оценку. Например, если бы наш игрок после 200 ставок успешно спрогнозировал 56% побед, мы могли бы уменьшить эту оценку только до 54,5-55%, поскольку выборка значительно увеличилась, а отклонение уже не так сильно смещается в сторону хвоста. Обратите внимание, что это НЕ доверительный интервал, это просто наша оценка.

Недостаточная выборка и показатели xG статистики

К сожалению, в ставках проблема недостаточных выборок встречается везде и повсюду, и следующей нашей остановкой будет xG статистика команд. Мы рассмотрим результаты переполошившего всю Испанию Реала Сосьедада. Дело в том, что после первых 10-ти туров баски возглавляли турнирную таблицу, показывая при этом запредельные результаты по xG, и только ленивый не проводил параллели с чемпионством Лестера времен Раньери. Что ж, давайте рассмотрим статистические показатели Реала Сосьедада после 10-ти сыгранных туров, получить подробные данные и проверить цифры можно здесь, указав необходимый диапазон дат: https://xscore.win/division/spain/laliga/

Показатели следующие: 

xG90 - 2,13

xGA90 - 0,74

xG90/xGA90 - 2,88 (согласитесь, феноменальный показатель). 

Для тех, кто не до конца знаком с xG статистикой, в двух словах поясню: показатель xG90/xGA90 говорит нам о том, что за 10 туров команда создала почти в 3 раза больше опасности у чужих ворот, чем дала создать у своих. Как видите, этот же показатель у Атлетико Мадрид на тот момент составил 2,54, у мадридского Реала 1,55, а у Барселоны 1,77. Если взглянуть на два прошлых полных сезона, мы увидим, что лучший показатель xG90/XGA90 мадридского Реала за полный сезон составил 2,59 в сезоне 19/20, показатель Барселоны – 2,11 в сезоне 18/19, а Атлетико продемонстрировала лучший показатель 2,17 в сезоне 19/20. Поэтому результат Реала Сосьедада в 2,88 выглядит действительно внушительно.

Все ли так хорошо на самом деле?

Давайте подумаем, есть ли хотя бы малейшая вероятность того, что Реал Сосьедад действительно вышел на такой космический уровень игры? Разумеется, нет. Если мы посмотрим на прошлый сезон, то увидим, что показатели басков были гораздо скромнее: xG90/xGA90 составил лишь 1,19. Летом команда не только глобально не усилилась, но и потеряла сразу несколько важных игроков. Диего Льоренте отправился в Лидс за 20 миллионов €. Также команда распрощалась с Давидом Сурутуса, он закончил карьеру, проведя в системе басков 15 лет, 12 из которых – в первой команде. Вдобавок закончилась аренда Мартина Эдегора, который провел отличный сезон и заслуженно вернулся в мадридский Реал, а из достойных замен команда получила только 34 летнего Давида Сильву, и мы как минимум можем утверждать, что сильнее Реал Сосьедад не стал. Поэтому нет оснований полагать, что ожидаемые показатели клуба резко вырастут из-за трансферной политики и вливания больших ресурсов в команду.

Поскольку состав Реала Сосьедада не улучшился, и он намного хуже составов трех лучших клубов Испании, мы можем смело заявить, что показатель xG90/xGA90 является хвостовым, и мы, как и в прошлом примере с игроком, верно спрогнозировавшим 72,5% исходов, можем сказать с уверенностью более чем 99%, что реальный xG90/xGA90 Реала Сосьедада будет намного ниже. Несмотря на внушительный показатель Реала Сосьедада xG90/xGA90 в 2,88 после 10 туров, измерив его по истечению сезона для 11-38 тура, мы вправе ожидать регрессию к среднему. И поскольку у нас нет поводов полагать, что уровень игры команды существенно вырос, здесь я бы применил коэффициент ручной коррекции. Как вы помните из примера с игроком, данный коэффициент увеличивается по мере удаления текущего результата от пика в сторону хвоста, а также сильно зависит от размера выборки. Поскольку средний показатель в прошлом сезоне составил 1,19 а сейчас составляет уже 2,88, мы понимаем, что данный показатель очень сильно удалился от среднего, да и дистанция в 10 туров слишком мала. Я бы скорректировал эту оценку в сторону уменьшения, скажем, до 1,4-1,6, то есть, в 11-38 турах я ожидаю увидеть у Реала Сосьедада показатель xG90/xGA90 на уровне 1,4-1,6.

Корректировка с рейтингом силы

После 10-го тура Реал Сосьедад сыграл уже 6 игр. Как и ожидалось, его показатель xG/xGA90 сильно упал, в период с 11 по 16 тур он составляет 0,94.

Правда, стоит отметить, что в эти 6 туров у Реала Сосьедада были игры с Барселоной, Атлетико Мадрид и Вильярреалом, что не могло не испортить общую статистику. Для того, чтобы оценить показатель xG90/xGA90 с учетом уровня соперников, нам необходимо обратить внимание на рейтинг силы, а именно – на колонку с показателем xG90/xGA90 noindex. Как мы видим, данный показатель у Реала Сосьедада составляет 1,28, что несколько лучше, чем 0,94, но все равно здесь наблюдается сильное падение по сравнению с показателями за первые 10 туров. 

Кстати, этот же показатель (xG90/xGA90 noindex) за первые 10 туров у Реала Сосьедада составил 2,13, что на порядок ниже, чем аналогичный показатель, не учитывающий рейтинг силы, который составил 2,88. Это фактически говорит нам о средней слабости соперников в первые 10 туров. В первые 10 туров Реал Сосьедад играл лишь с аутсайдерами и середняками Ла Лиги, исключением был только Реал Мадрид во втором туре. Как итог – мы без всякого труда, просто взглянув на цифры, нашли еще 1 фактор, который помог баскам добиться таких фантастических результатов в первые 10 туров, а именно – слабый календарь. Именно слабый календарь и большая удача в создании моментов у чужих ворот и предотвращении моментов у своих ворот составляют секрет такого феноменального старта команды, а в будущем показатели Реала Сосьедада сильно упадут, и ожидается регрессия к среднему.

Опасность для моделей ставок

Какую пользу мы можем извлечь из этих данных? Команды с такими отклонениями, как у Реала Сосьедада, могут представлять опасность для ваших моделей ставок. Из-за того, что показатели Сосьедада завышены, вы будете получать ставки на эту команду едва ли не в каждом туре. Но как мы видим, регрессия к среднему значению неизбежна, и в итоге результаты команды будут значительно хуже, чем предыдущие. Такие команды не подходят для ставок, ведь в них зачастую не будет положительного ожидаемого ROI, поэтому отслеживайте их и убирайте из своих моделей вручную, и тогда уровень ваших достижений будет непременно расти. Завтра на нашем канале Дима проведет стрим на эту тему, не пропустите и присоединяйтесь к трансляции здесь.

Report Page