Еще один статистический парадокс

Еще один статистический парадокс

Психометрика и психоскептика

В статистике известно немало парадоксов - ситуаций, в которых интуитивные ожидания или привычные методы дают на первый взгляд противоречивые выводы. В предыдущих материалах мы уже обсуждали, например, парадокс Симпсона, когда агрегированные данные могут демонстрировать противоположный эффект по сравнению с эффектом, получаемым при анализе отдельных групп.

Еще один парадокс, Jeffreys–Lindley paradox, показывает расхождение между частотным и байесовским подходами. В работах Харольда Джеффриса 1930–40-х годов встречаются наблюдения о том, что увеличение размера выборки может приводить к крайне малым p-value при отсутствии убедительных данных в пользу альтернативной гипотезы. Джеффрис, развивая байесовскую методологию, обратил внимание на несогласованность между выводами, сделанными в рамках двух подходов в некоторых ситуациях.

Однако формальная формулировка парадокса появилась позднее: в 1957 году Деннис Линдли опубликовал в журнале Biometrika статью “A statistical paradox”, где показал, что при увеличении размера выборки частотный анализ может получать результаты, отвергающие нулевую гипотезу (p-value стремится к нулю), тогда как Bayes factor при тех же данных начинает всё сильнее поддерживать нулевую гипотезу. То есть два подхода приходят к противоположным выводам. Именно сочетание идей Джеффриса и формальной работы Линдли привело к появлению названия Jeffreys–Lindley paradox.

Но, как показывает новая статья в журнале Biometrika (2025), парадоксальность статистических выводов не ограничивается различиями между парадигмами. Автор работы описывает другой парадокс - Bayes Factor Reversal (BFR) paradox, при котором противоречие возникает внутри самой байесовской парадигмы, и причём при полностью реалистичных размерах выборки.

Байесовский подход и его ограничения

Bayes factor на протяжении последних десятилетий рассматривается как центральный инструмент байесовского подхода при проверке гипотез и сравнении моделей. Как отмечает Berger (2006), он стал «основным инструментом» для байесовского тестирования, а Kass и Raftery (1995) описывают его как «сводку свидетельств, которые данные дают в пользу одной научной теории по сравнению с другой». Goodman (1999) даже утверждал, что минимальный Bayes factor обладает объектностью и может использоваться вместо p-value как мера силы доказательности. Эти позиции способствовали широкому распространению Bayes factor: он стал стандартом в программных пакетах JASP и BayesFactor для R, а также в обширном корпусе прикладных исследований. Более того, Berger и Sellke (1987) утверждали, что p-value «несовместимы» с понятием доказательности и должны быть заменены Bayes factor как более последовательной и интерпретируемой мерой.

Однако не все статистики разделяют этот энтузиазм. В 2016 году Кристиан Роберт опубликовал критическую работу “The expected demise of the Bayes factor”, где указал на фундаментальную проблему: ключевой параметр, масштаб априорного распределения, выбирается весьма произвольно и не имеет объективного обоснования. Он призвал исследователей изучить, насколько сильно изменение этого параметра влияет на выводы.

Новая статья “The Bayes factor reversal paradox”, вышедшая в журнале Biometrika в 2025 году, отвечает на этот призыв и делает это гораздо радикальнее, чем можно было ожидать. Она показывает, что влияние масштаба априорного распределения носит не просто количественный характер (изменяется величина BF), а качественный: выбор априорной дисперсии может полностью изменить направление вывода, переворачивая интерпретацию одних и тех же данных. Именно эта внутренняя нестабильность Bayes factor и приводит к формулировке нового парадокса.

Чтобы понять это, напомним ключевые элементы байесовского подхода. В байесовской статистике анализ опирается не только на данные, но и на априорное распределение, отражающее представления о параметре до наблюдения данных. Априорное распределение может быть «узким», если предполагается, что параметр близок к нулю, или «широким», если допускаются существенные отклонения. Ширина априорного распределения формально задаётся его дисперсией τ²: чем она больше, тем больший простор параметру допускает исследователь. Для сравнения гипотез используется Bayes factor (в работе он определяется как BF₀₁ — отношение правдоподобия данных при нулевой гипотезе к правдоподобию при альтернативной). В этой записи BF₀₁ < 1 означает, что данные в большей степени поддерживают альтернативную гипотезу, а BF₀₁ > 1 , что данные лучше согласуются с нулевой гипотезой.

Однако BF зависит не только от наблюдённых данных, но и от выбранной дисперсии априорного распределения, и именно эта зависимость формирует новый парадокс.

Flip point

В статье рассматривается стандартная задача проверки гипотезы о среднем нормального распределения с известной дисперсией и показывает, что для каждого статистически значимого результата существует особое значение τ² , так называемая flip point. Если выбрать дисперсию априорного распределения меньше этого значения, Bayes factor поддерживает альтернативную гипотезу; если больше — нулевую. Данные при этом остаются теми же, модель не меняется, а направление вывода зависит только от ширины априорного распределения под альтернативной гипотезой. Такой эффект возникает систематически: для каждого z-значения, превышающего порог значимости, существует своё критическое значение масштаба.

Числовой пример показывает это достаточно наглядно. Пусть выборка составляет n = 50, а наблюдаемая статистика равна z = 2.0 (p ≈ 0.046). Для таких данных существует критическое значение τ*, при котором Bayes factor равен 1. Если выбрать дисперсию меньше τ*, показатель будет поддерживать альтернативную гипотезу; если больше — нулевую. Причём оба выбора могут быть вполне обоснованными с научной точки зрения. В больших выборках чувствительность только усиливается. Например, при n = 5000 и z = 1.96 два разумных варианта априорной дисперсии дают более чем 30-кратный разброс Bayes factor и могут привести к противоположным выводам о наличии или отсутствии эффекта.

Последствия парадокса

Этот парадокс может иметь важные последствия для прикладных исследований. Bayes factor часто воспринимается как мера доказательности, определяемая прежде всего данными. Однако обнаруживается, что ключевое влияние оказывает выбор масштаба априорного распределения под альтернативной гипотезой. Два аналитика, использующие одну и ту же модель и одинаковые данные, могут прийти к разным выводам только из-за различий в предположениях о том, насколько сильно параметр может отклоняться от нуля. При этом многие программные пакеты используют «стандартные» или «дефолтные» априорные распределения, влияние которых нередко остаётся за кадром.

В итоге Jeffreys–Lindley paradox подчёркивает разницу между частотным и байесовским анализом, а Bayes Factor Reversal paradox показывает, что даже внутри байесовского подхода выводы зависят от сделанных допущений. Для интерпретации результатов оказывается важным не только то, какие данные собраны, но и какой набор предположений сопровождает модель, включая такие параметры, которые нередко воспринимаются как технические.

Ссылка:

Lovric, M. M. (2025). The Bayes Factor Reversal Paradox. arXiv preprint arXiv:2511.22152.

Report Page