p-value = 0.051, а уровень значимости 0.05, что делать?

https://t.me/abba_testing

Наиболее корректным был бы ответ: "не можем отклонить H0" и вот почему: есть дизайн теста, в котором есть заранее есть заложенный (=согласованный с заказчиком!) этот самый параметр, alpha = 0.05, который является не только уровнем значимости, но который в том числе можно интерпретировать как "предел ошибки 1-го рода". Согласно этому согласованному критерию p-value "запредельное", а поэтому H0 не может быть отклонена.

Более того, в дизайне со стороны заказчика рекомендуется (точнее надо буквально принуждать его это сделать) написать коммитмент о том, что он будет делать, если результат не стат. значимый. Он должен прописать его кров... осмысленно, вдумчиво, пока все еще на берегу. И если вдруг он решит пойти против своего коммита, далее только он и должен будет ответить (прежде всего себе), почему он это делает.

Не стоит недооценивать соблазн пойти против договоренностей при таком пограничном p-value! Вера в свою гипотезу может быть сильнее факта отсутствия стат. значимости. Но стоит отдать должное заказчику: на его плечи ложится самое-самое сложное в A/B - принятие решений; вы же как аналитики можете лишь дать консультации. В случае "пойти против" вы также можете помочь собрать фактуру, то есть доводы "за", но помните, что от вас требуется непредвзятость, иначе тоже может наступить риск "подбить факты".

И все же, может, есть какой-то стат. ход, а то и несколько?

1) Как вариант, провести повторный тест с пенальтизацией, уменьшить альфу через поправку Бонферрони (0.05/2 = 0.025). По сути это что-то вроде обратной поправки Холма: у вас каждый следующий тест должен будет уменьшать альфу на кол-во тестов. Конечно, это не гарантирует отсутствие ложноположительного прокраса (его ничто не гарантирует), однако требует куда более ярковыраженного результата, который был бы подкреплен результатам до (pvalue = 0.051), что в сумме чашечку-то весом склонило бы в пользу того, что эффект все же есть.

2) Результат, конечно, может сновать оказаться не стат. значимым. Но и тут можно пойти дальше, - о чем в следующих постах я хочу написать больше, - в мета-анализ. Мета-анализ возможен в случае, если у нас одна и та же общая нулевая гипотеза, допустим: "наша фича XYZ не влияет ...". Начну сразу с того, что здесь есть пара подводных камней:

- Надо максимально сохранять (ок-ок, применять заклинание из 1 курса Хогвартса - assumption) воздействие факторов на группы из теста в тест. Валерий Бабушкин недавно ссылался на пост про мета-анализ, сказав, что примеры из рассматриваемой статьи и из комментариев к его же посту странные. А странные потому, что в одном тесте была раскатка фичи XYZ, например, на пользователей Android, а на другом - на iOS, что вообще-то может давать гетерогенные (разные) эффекты, потому что поведение юзеров этих осей чаще всего разное. В общем, тут есть разные выделенный сегменты. На мой взгляд некорректно проводить мета-анализ в таком случае. Должен быть рандом для соблюдения влияния одних и те же факторов не только на обе группы, что и позволяет вычленить эффект от тритмента, но и между тестами. Я бы еще с натяжкой понял, если бы, допустим "фича XYZ" сначала катилась бы в приложении "Перекресток", а потом - в "Пятерочка".

- Есть независимая общая H0 и зависимая. Независимая это когда у нас из теста в тест этой фичи идет разная конфигурация юзеров/объектов в A/B. Зависимая - это когда из теста в тест они повторяются.

В случае независимости мы работаем с комбинацией статистик / p-value (и вероятностью таковую получить, если верна H0), в случае зависимости - cо связанными статистиками / p-value от одного и тоже набора объектов (юзеры, например) в A/B из теста в тест. Пример: 100500 статистик по конкретному A/B - все они связаны одними и теми же объектами в А и в B.

Отсюда есть и разные методы обработки общей H0:

независимая - метод комбинированной вероятности Фишера, weighted z-score.
зависимая - например, гармоническое среднее.

На этом текущий пост все. В следующий раз я хотел бы продолжить рассказ про мета-анализ, а потому закину интригу номер: применяя метод Фишера с результатам, когда у вас p-values двух тестов = [0.051, 0.051], вы получите результат p-value чуть меньше 0.02. То есть у вас на входе два нестат.значимых теста, а на выходе - общий стат. значимый результат (если мы оставляем альфа и на этот тест как 0.05). Клево, да? И вот вопрос: "почему?"

p-value = 0.051, а уровень значимости 0.05, что делать?

Report Page