Как не ошибаться

Джордан Элленберг

Опровержение нулевой гипотезы

Все это время мы пытаемся найти ответ на фундаментальный вопрос: в какой степени мне следует удивляться тому, что я вижу в этом мире? Моя книга посвящена математике, а значит, вы догадываетесь, что существует численный способ ответить на этот вопрос. Такой способ действительно существует, но он таит в себе опасность. Пришло время поговорить о
p-значениях
.

Однако сначала нам нужно обсудить тему маловероятности, в отношении которой наши представления были до сих пор неприемлемо расплывчатыми. У этого есть своя причина. Существуют области математики (такие как геометрия и арифметика), которым мы учим детей и которым дети в какой-то мере учатся сами. Эти области математики наиболее отвечают нашей врожденной интуиции. Мы рождаемся, почти зная о том, как считать и разделять объекты на категории по таким признакам, как место и форма. Формальное математические толкование подобных концепций не так сильно отличается от того, с чего мы начинаем.

Совсем другое дело – вероятность. Безусловно, мы размышляем о неопределенных вещах, опираясь на внутреннее интуитивное восприятие, но сформулировать все это гораздо труднее. Есть причина, почему математическая теория вероятностей возникла на столь позднем этапе истории математики и почему она так поздно появляется в учебном плане по математике. Если вы попытаетесь задуматься, что
означает

вероятность, у вас голова пойдет кругом. Когда мы говорим: «Подброшенная монета упадет лицевой стороной вверх с вероятностью 1/2», – мы ссылаемся на закон больших чисел (из
главы четвертой
), который гласит, что, если вы будете подбрасывать монету много раз, доля аверсов непременно приблизится к 1/2, как будто заключенная в сужающийся канал. Такой подход обозначается термином «частотный подход к вероятности».

Но что мы имеем в виду, когда говорим: «Вероятность того, что завтра будет дождь, составляет 20 %»? Завтра наступает только один раз, значит, это не эксперимент, который мы вольны повторять снова и снова, как в случае подбрасывания монеты. Приложив определенные усилия, мы можем втиснуть прогноз погоды в частотную модель, подразумевая при этом, что в большой совокупности дней с соответствующими условиями на следующий день будет дождь с вероятностью 20 %. Но, пытаясь ответить на вопрос: «Какова вероятность, что через следующих тысячу лет род человеческий вымрет?» – вы снова оказываетесь в тупике. Это по своей сути такой эксперимент, который вы никак не сможете повторить. Мы используем вероятность даже тогда, когда говорим о событиях, которые вообще невозможно отнести на волю случая. Какова вероятность того, что потребление оливкового масла предотвращает рак? Какова вероятность того, что Шекспир был автором пьес Шекспира? Какова вероятность того, что Бог написал Библию и сотворил Землю? Трудно признать право на описание таких событий на том же языке, который мы используем для оценки подбрасывания монет и бросания костей. Тем не менее мы все-таки отвечаем на эти вопросы фразами: «Пожалуй, это маловероятно» или: «Кажется, это вполне вероятно». Но если мы так делаем, то сможем ли мы удержаться от соблазна спросить: «

Насколько
это вероятно?»
Одно дело – задать вопрос, и совсем другое – ответить на него. Я не могу представить себе эксперимент, который позволил бы определить вероятность того, что Всевышний действительно находится там, выше всех (или что Он – это действительно «он», если уж на то пошло). Следовательно, мы должны использовать следующий лучший вариант – во всяком случае лучший с точки зрения традиционной статистической практики. (Как мы увидим позже, по этому вопросу существуют разногласия.)

Мы уже говорили о низкой вероятности того, что имена средневековых раввинов скрыты в тексте Торы. Но действительно ли это так? Многие религиозные евреи придерживаются мнения, что все существующее знание так или иначе содержится в тексте Торы. Если это действительно так, присутствие в Торе имен и дат рождения раввинов совсем не маловероятно; по существу, это почти неизбежно.

То же самое можно сказать о розыгрыше лотереи в штате Северная Каролина. На первый взгляд кажется маловероятным, чтобы один и тот же набор выигрышных чисел выпал дважды за одну неделю. И это верно, если вы согласны с предположением, что шарики с числами выпадают из барабана в совершенно случайном порядке. Но, может быть, вы так не считаете? Возможно, вы думаете, что система случайного распределения работает неправильно, поэтому числа 4, 21, 23, 34, 39 могут выпадать с большей вероятностью, чем другие. Или вы полагаете, что нечистый на руку чиновник, занимающийся организацией лотереи, выбирает выигрышные числа так, чтобы они совпали с числами в его билете. При любой из этих гипотез удивительное совпадение совсем не маловероятно. Невероятность в таком понимании – понятие

относительное
, а не абсолютное. Когда мы говорим, что результат невероятен, тем самым мы в явной или неявной форме утверждаем, что он маловероятен при определенной совокупности предположений относительно базовых принципов устройства этого мира.

Многие научные вопросы, типа «происходит что-то или нет?», можно свести к простому ответу «да» или «нет». Новый лекарственный препарат действительно помогает вылечить болезнь или не оказывает никакого воздействия? Психологическая интервенция действительно делает вас более счастливыми (бодрыми, сексуальными) или не оказывает никакого воздействия? Сценарий «не оказывает никакого воздействия» называют
нулевой гипотезой

. Нулевая гипотеза – это предположение о том, что изучаемое вами воздействие не имеет никаких последствий. Если вы исследователь, разработавший новый лекарственный препарат, нулевая гипотеза – это то, что не дает вам спать по ночам. Пока вы не сможете ее опровергнуть, вы не поймете, стоите ли вы на пороге медицинского прорыва или выбрали не тот метаболический путь.

Каким образом следует доказывать несостоятельность нулевой гипотезы? Стандартную модель под названием «проверка значимости нулевой гипотезы» в наиболее распространенном виде разработал в начале ХХ столетия Рональд Эйлмер Фишер, основатель современной статистической практики
[101]
.

Вот как это делается. Сначала необходимо провести эксперимент. Вы можете начать с сотни испытуемых, а затем в произвольном порядке выбрать половину участников эксперимента для приема вашего чудо-лекарства, а оставшимся давать плацебо. Безусловно, вы рассчитываете на то, что среди пациентов, принимающих ваш лекарственный препарат, вероятность смертности будет ниже, чем среди пациентов, принимающих таблетки-пустышки.

После этого дальнейшие действия могут показаться довольно простыми: если вы фиксируете меньше случаев смерти среди пациентов, принимавших лекарства, по сравнению с теми, кто принимал плацебо, можно объявлять о победе и подавать в Управление по контролю за пищевыми продуктами и медикаментами заявку на регистрацию нового лекарственного препарата. Но это неправильный путь. Недостаточно одного соответствия полученных данных вашей теории; эти данные должны быть несовместимы с отрицанием вашей теории, ужасной нулевой гипотезой. Я, например, объявлю, будто обладаю такими мощными способностями к телекинезу, что могу вытащить солнце из-за горизонта. Вам нужны доказательства? Тогда потрудитесь выйти на улицу около пяти утра, и увидите результаты моей работы! Но такое заявление в принципе нельзя считать доказательством, поскольку согласно нулевой гипотезе, если у меня нет экстрасенсорных способностей, солнце все равно взойдет.

Интерпретация результатов клинических испытаний требует такого же подхода. Давайте сформулируем эту задачу в числовом виде. Предположим, мы имеем ситуацию, в которой истиной является нулевая гипотеза: вероятность смерти одна и та же (скажем, 10 %) как среди пятидесяти пациентов, принимавших новый лекарственный препарат, так и среди пятидесяти пациентов, принимавших плацебо. Однако это не означает, что умрут пять пациентов, принимавших лекарство, и пять пациентов, которых лечили плацебо. В действительности вероятность того, что умрут в точности пять пациентов первой группы, составляет 18,5 % – не очень высокая, как и в случае выпадания точно одинакового количества аверсов и реверсов в длинной серии подбрасываний монеты. Точно так же маловероятно и то, что за время проведения испытаний из жизни уйдет столько же пациентов, лечившихся лекарственным препаратом, сколько и пациентов, получавших плацебо. Я сделал следующие расчеты.

Вероятность того, что количество летальных исходов среди пациентов, принимавших лекарство, и пациентов, получавших плацебо, окажется абсолютно одинаковым, составляет 13,3 %.
Вероятность того, что количество летальных исходов среди пациентов, получавших плацебо, окажется меньше количества случаев смерти среди пациентов, принимавших лекарственный препарат, составляет 43,3 %.

Вероятность того, что количество летальных исходов среди пациентов, получавших лекарственный препарат, окажется меньше количества случаев смерти среди пациентов, получавших плацебо, составляет 43,3 %.
Тот факт, что в группе пациентов, принимавших лекарственный препарат, результаты лучше, чем среди пациентов, получавших плацебо, мало что значит, поскольку даже согласно нулевой гипотезе нельзя исключать вероятность, что ваш лекарственный препарат не оказывает никакого воздействия.

Однако все выглядит совсем иначе, если в группе пациентов, принимавших лекарство, результаты
гораздо

лучше. Предположим, за время проведения испытаний в группе плацебо умирает пять пациентов, а в группе лекарственного препарата – ни одного. Если нулевая гипотеза верна, каждый пациент обеих групп имеет шанс остаться в живых, равный 90 %. Однако в таком случае весьма низка вероятность того, что выживут все пятьдесят пациентов, принимавших лекарство. Первый пациент из этой группы имеет шанс на выживание 90 %; вероятность того, что в живых останется не только первый, но и второй пациент, составляет 90 % от этих 90 %, или 81 %. Вероятность того, что в живых останется и третий пациент, составляет всего 90 % от 81 %, или 72,9 %. Каждый очередной пациент, выживание которого вы ставите в качестве условия, немного уменьшает вероятность, и к концу процесса, когда вы задаете вопрос о вероятности выживания всех пятидесяти пациентов, остается совсем небольшая доля вероятности:

(0,9) × (0,9) × (0,9) ×… всего пятьдесят раз! … × (0,9) × (0,9) = 0,00515…

В случае нулевой гипотезы существует только один шанс из двухсот получить настолько хороший результат. Это звучит гораздо более убедительно. Если я заявлю, что могу силой мысли заставить солнце взойти, власть моих способностей не должна производить на вас впечатление. Однако, если я скажу, что могу сделать так, чтобы солнце не взошло, и оно действительно не взойдет, тем самым я продемонстрирую весьма маловероятный результат с точки зрения нулевой гипотезы, и вам лучше обратить на это внимание.

Таким образом, в формальном виде процедуру опровержения нулевой гипотезы можно представить так.
1. Провести эксперимент.
2. Выдвинуть предположение, что нулевая гипотеза истинна, и обозначить символом
p
вероятность (согласно данной гипотезе) получения результатов со столь же крайними значениями, что были получены в результате наблюдений.
3. Число
p
обозначается термином «
p
-значение». Если это очень маленькое значение, радуйтесь – вы можете заявить, что ваши результаты

статистически значимы
. Если это число имеет большое значение, признайте тот факт, что нулевая гипотеза не была опровергнута.

Но насколько маленьким должно быть это «очень маленькое» значение? Нет принципиального способа провести четкое разграничение между тем, что является значимым, а что нет, но по традиции, которая началась еще со времен Фишера и которой принято придерживаться в настоящее время, в качестве пороговой величины используется значение
p
= 0,05, или 1/20.

Проверка значимости нулевой гипотезы получила широкое распространение, поскольку она соответствует нашим интуитивным представлениям о неопределенности. Почему библейские коды кажутся нам убедительными, по крайней мере на первый взгляд? Потому что коды, подобные тем, которые обнаружил Витцум, весьма маловероятны с точки зрения нулевой гипотезы, гласившей, что в Торе не заложено знание будущего. Значение числа
p

(вероятность обнаружения такого большого количества эквидистантных последовательностей букв, столь точно отображающих демографические данные о выдающихся раввинах) весьма близко к нулю.

Различные варианты этой аргументации в пользу божественного творения появились задолго до формального определения Фишера. Если в качестве нулевой гипотезы принять отсутствие первичного разработчика-организатора, сумевшего собрать все сущее воедино, тогда было бы крайне маловероятным существование нашего мира, столь великолепно спланированного и идеально упорядоченного.

Первым, кто попытался поставить такую аргументацию на математическую основу, был Джон Арбетнот – королевский физик и сатирик, друживший с Александром Поупом и среди прочего занимавшийся математикой
{82}

. Арбетнот изучил записи о детях, родившихся в Лондоне за период с 1629 по 1710 год, и обнаружил в них удивительную закономерность: на протяжении каждого из этих восьмидесяти двух лет рождалось больше мальчиков, чем девочек. Арбетнот поставил вопрос так: какова вероятность такого совпадения, если нулевая гипотеза гласит, что Бога нет и все происходит по воле случая? Если исходить из такой гипотезы, вероятность того, что в любой год в Лондоне появится больше мальчиков, чем девочек, составляет 1/2, а

p
-значение (вероятность того, что мальчиков будет рождаться больше каждый год на протяжении восьмидесяти двух лет подряд) равно:

(1/2) × (1/2) × (1/2) ×… всего 82 раза … × (1/2)

или немногим меньше одного случая на 4 септильона – другими словами, почти ноль. Арбетнот опубликовал свои выводы в сочинении, названном An Argument for Divine Providence, Taken from the Constant Regularity Observed in the Births of Both Sexes («Аргумент в пользу Промысла Божьего, выведенный на основании устойчивой закономерности в рождении детей обоих полов»).

Аргументация Арбетнота получила высокую оценку авторитетных духовных лиц, но другие математики сразу обратили внимание на некоторые изъяны в его рассуждениях. Одним из основных недостатков была чрезмерная специфичность его нулевой гипотезы. Безусловно, данные Арбетнота опираются на предположение о том, что пол детей определяется произвольно: каждый ребенок имеет равные шансы появиться на свет как мальчиком, так и девочкой. Но почему эти шансы должны быть равными? Николай Бернулли предложил другую нулевую гипотезу: пол ребенка определяется случайно с вероятностью 18/35 того, что это будет мальчик, и 17/35 – что это будет девочка. Нулевая гипотеза Бернулли такая же атеистическая, как и гипотеза Арбетнота, и прекрасно согласуется с фактическими данными. Если вы подбросите монету 82 раза и она 82 раза выпадет лицевой стороной вверх, вам следует подумать: «Что-то не так с этой монетой», а не «Бог благоволит к аверсам»

[102]
.
Аргументация Арбетнота не была широко принята, однако дух ее жив. Арбетнот – интеллектуальный отец не только искателей библейских кодов, но и ученых-креационистов, которые даже в наше время утверждают, что мир без Бога вряд ли выглядел бы так, как тот мир, в котором мы живем
[103]
{83}
.

Однако проверка статистической значимости не ограничивается теологической апологетикой. В каком-то смысле Дарвин – грубый безбожник в понимании ученых-креационистов – в своем основном труде предложил почти такие же аргументы:

Невозможно допустить, чтобы ложная теория объяснила столь удовлетворительно, как это делает теория естественного отбора, различные обширные группы фактов, которые были только что перечислены. Недавно было сделано возражение, что подобный способ аргументации ненадежен, но это метод, постоянно применяемый при суждении об обычных явлениях жизни и часто применявшийся величайшими естествоиспытателями
[104]
{84}
.

Другими словами, если закон естественного отбора считать ошибочным, представьте себе, насколько маловероятным было бы существование биологического мира, который настолько согласуется с его прогнозами!

Вклад Фишера состоит в том, что он формализовал процесс проверки значимости нулевой гипотезы, создав систему, в которой значимость (или отсутствие значимости) результатов эксперимента расценивается как объективный факт. Проверка значимости нулевой гипотезы в том виде, в котором ее описал Фишер, использовалась в качестве стандартного метода оценки результатов научных исследований почти на протяжении столетия. В учебниках этот метод называют «основой психологических исследований»
{85}

. Это стандарт, по которому мы разделяем эксперименты на успешные и неудачные. Каждый раз, когда вы изучаете материалы медицинских, психологических или экономических исследований, скорее всего вы читаете о том, что было проверено с помощью теста на оценку статистической значимости.

Тем не менее беспокойство по поводу этого «ненадежного способа аргументации», на которое обратил внимание еще Дарвин, так и не было отброшено полностью. Все то время, когда этот метод применялся как стандартный, находились люди, которые объявляли его огромной ошибкой. Психолог Дэвид Бакан писал в 1966 году о «кризисе психологии», который, по его мнению, был «кризисом статистической теории»:

Проверка значимости не обеспечивает получение информации относительно психологических феноменов, которые обычно относят на ее счет… Применение [этого метода] связано с большими неприятностями. …Заявить об этом «во всеуслышание» равносильно тому, чтобы взять на себя роль ребенка, заметившего в простоте, что король-то голый
{86}
.

И сегодня, почти пятьдесят лет спустя, король по-прежнему у власти и все так же щеголяет в чем мать родила, несмотря на то что все больше шумных детей разносят весть о его наготе.

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Как не ошибаться

Опровержение нулевой гипотезы

Report Page