Как не ошибаться

Как не ошибаться

Джордан Элленберг

Детектив, не судья

Очевидно, что было бы ошибкой использовать
р
 < 0,05 в качестве синонима определения «истинный» и 
p
 > 0,05 для обозначения понятия «ложный». Доказательство от маловероятного, само по себе интуитивно привлекательное, просто не работает в качестве принципа для выведения научной истины, лежащей в основе данных.

Но какова альтернатива? Если вы когда-либо проводили эксперимент, вам известно, что научная истина не возникает из облаков, взывая к вам звуком громогласной трубы. Данные не всегда упорядочены, а логический вывод – трудный процесс.
Одна простая и распространенная стратегия сводится к тому, чтобы помимо
р
-значений сообщать также
доверительные интервалы

. Это подразумевает некоторое расширение концептуальных рамок, предлагая нам анализировать не только нулевую гипотезу, но и весь диапазон альтернатив. Предположим, у вас онлайновый магазин, который продает изготовленные кустарным способом фестонные ножницы. Будучи современным человеком (если не считать того, что вы занимаетесь изготовлением фестонных ножниц), вы устраиваете проверку «А или Б», в ходе которой половина пользователей видит текущую версию вашего веб-сайта (А), а другая половина – обновленную версию (Б) с анимационным изображением пары ножниц, которые поют и танцуют, расположившись над кнопкой «Купить сейчас». После тестирования этих двух версий сайта вы обнаруживаете, что на сайте Б объем покупок увеличивается на 10 %. Отлично! Теперь, если вы человек продвинутый, у вас может возникнуть беспокойство по поводу того, не было ли это увеличение случайной флуктуацией, поэтому вы вычисляете

р
-значение и приходите к выводу, что вероятность получения такого хорошего результата в случае, если переформатирование сайта действительно не работало бы (то есть если нулевая гипотеза оказалась бы верной), составляет всего 0,03
[144]
.

Но зачем останавливаться на этом? Если я плачу студенту колледжа за то, чтобы он сделал изображение танцующих ножниц на всех страницах моего сайта, мне нужно знать не только то, сработает ли этот прием вообще, но какие именно результаты он обеспечит. Согласуется ли воздействие, которое я обнаружил, с тем, что в долгосрочной перспективе обновление сайта повысит объем продаж всего на 5 %? При такой гипотезе вы можете обнаружить, что вероятность роста на 10 % гораздо выше, скажем 0,2. Другими словами, доказательство от маловероятного не исключает гипотезу, что обновление сайта приведет к улучшению ситуации на 5 %. Однако вы можете оптимистично задать себе вопрос, не было ли 

невезение
причиной полученного вами результата, и на самом деле обновление сайта повысит привлекательность ваших ножниц на 25 %. Вы вычисляете еще одно
р
-значение и получаете 0,01 – довольно малую вероятность, которая убеждает вас отбросить эту гипотезу.

Доверительный интервал – это тот диапазон гипотез, которые доказательство от маловероятного не отбрасывают, или гипотез, которые в разумных пределах согласуются с реально наблюдаемым результатом. В данном случае доверительный интервал мог бы составлять от +3 % до +17 %. Тот факт, что 0 %, как следовало бы из нулевой гипотезы,
не
 включается в доверительный интервал, говорит о том, что результаты статистически значимы в том смысле, о котором шла речь выше в данной главе.

Однако доверительный интервал дает гораздо больше информации. Интервал [+3 %, +17 %] позволяет быть уверенным в том, что эффект положительный, но не в том, что он большой. С другой стороны, интервал [+9 %, +11 %] позволяет с гораздо большей уверенностью предположить, что эффект не только положительный, но и довольно большой.

Доверительный интервал содержит полезную информацию и в случаях, когда вы не получаете статистически значимых результатов – другими словами, когда доверительный интервал нулевой. Если доверительный интервал равен [−0,5 %, 0,5 %], тогда тот факт, что вы не получили статистически значимых результатов, становится веским доказательством в пользу того, что вмешательство не имеет никакого эффекта. Если доверительный интервал составляет [−20 %, 20 %], причина отсутствия статистически значимых результатов состоит в том, что вы представления не имеете, оказывает ли вмешательство какое-либо воздействие и в какую сторону. С точки зрения статистической значимости эти два следствия кажутся одинаковыми, но имеют разные последствия в плане того, чего вам следует ожидать дальше.

Разработку концепции доверительного интервала обычно приписывают Ежи Нейману, еще одному выдающемуся ученому раннего периода развития статистики. Нейман был поляком, который, как и Абрахам Вальд, занимался чистой математикой в Восточной Европе, прежде чем перейти в новую по тем временам область математической статистики и переехать на Запад. В конце 1920-х годов Нейман начал сотрудничать с Эгоном Пирсоном, унаследовавшим от своего отца Карла как академическую должность в Лондоне, так и ожесточенную научную вражду с Рональдом Фишером. Фишер был трудным человеком, всегда готовым вступить в спор; его дочь говорила о нем: «Он вырос, не научившись чутко относиться к обычным человеческим качествам собратьев»

{132}
. В Неймане и Пирсоне он нашел оппонентов, которые оказались достаточно непреклонными, чтобы сражаться с ним десятилетиями.
Научные разногласия между этими учеными нашли свое самое яркое выражение в подходе Неймана и Пирсона к проблеме вывода
[145]
. Как установить истину по имеющимся данным? Их поразительный ответ состоит в том, чтобы не задавать вопросов. Для Неймана и Пирсона задача статистики – сказать нам, не во что нам верить, а что нам
делать

. Статистика ориентирована на принятие решений, а не на поиск ответов на вопросы. Проверка статистической значимости – не более чем правило, которое подсказывает ответственным лицам, целесообразно ли одобрять лекарственный препарат, предпринимать предложенную экономическую реформу или делать сайт более интересным.

Поначалу кажется просто диким отрицать тот факт, что цель науки состоит в поисках истины, но философия Неймана и Пирсона не так далека от рассуждений, которые мы используем в других областях. В чем состоит цель судебного разбирательства по уголовному делу? Мы могли бы наивно заявить, что это выяснение, действительно ли подсудимый совершил преступление, по поводу которого начато судебное разбирательство. Однако все далеко не так. Существуют нормы доказательного права, которые запрещают жюри присяжных заслушивать свидетельские показания, полученные с нарушением закона, даже если эти показания могли бы помочь им точно определить, виновен подсудимый или нет. Цель судебного разбирательства – не истина, а справедливость. У нас есть правила, которых необходимо придерживаться, поэтому, когда мы говорим, что подсудимый «виновен», мы имеем в виду (если внимательно относимся к словам) не то, что этот человек совершил преступление, в котором его обвиняют, а то, что он был осужден честно и справедливо в соответствии с данными правилами. Какие бы правила вы ни выбрали, в некоторых случаях вы неизбежно освободите преступников и посадите за решетку невиновных. Чем меньше вы делаете первое, тем больше вероятность того, что совершите второе. Поэтому мы пытаемся создавать правила, в случае которых общество так или иначе считает, что мы лучше всего обеспечиваем этот важнейший компромисс.

В понимании Неймана и Пирсона наука – тот же суд. Когда лекарственный препарат не проходит проверку значимости, мы не используем формулировку: «У нас есть уверенность, что этот препарат не работает», а говорим просто: «Не было доказано, что этот препарат работает». А затем мы отклоняем этот препарат, точно так же как прекращаем дело в отношении подсудимого, присутствие которого на месте преступления невозможно было установить в пределах разумных сомнений, даже если каждый человек в здании суда считает его виновным на все сто процентов.

Фишеру все это было не нужно: в его понимании Нейман и Пирсон погрязли в чистой математике, настаивая на строгом рационализме в ущерб всему, что напоминает научную практику. Большинство судей не пошли бы на то, чтобы позволить невиновному подсудимому встретиться с палачом, даже если того требуют существующие правила. А большинство практикующих ученых, вообще не заинтересованных в следовании строгой совокупности инструкций, отказывают себе в удовольствии выработать мнение по поводу того, какие гипотезы действительно являются истинными. В письме Уильяму Эдмунду Хику Фишер писал:

Мне немного жаль, что вы вообще беспокоились по поводу излишне серьезного подхода к проверке значимости, представленного Нейманом и Пирсоном в виде критических областей и т. д. В действительности я и мои ученики во всем мире даже не думали использовать их. Если меня попросят назвать точную причину этого, я скажу, что они подходят к проблеме совершенно не с того конца, то есть не с точки зрения исследователя, с базой обоснованных знаний, в рамках которой весьма неустойчивая совокупность гипотез и несвязанных наблюдений подвергается постоянному анализу. Что ему необходимо, так это уверенный ответ на вопрос: «Следует ли мне учитывать это?» Безусловно, этот вопрос можно и ради уточнения идеи необходимо сформулировать так: «Отбрасывает ли эта совокупность наблюдений данную гипотезу, и если да, то при каком уровне значимости?» В таком виде это можно недвусмысленно сформулировать только потому, что у настоящего экспериментатора уже есть ответы на все вопросы, на которые последователи Неймана и Пирсона пытаются (думаю, напрасно) ответить исключительно посредством математических размышлений

{133}
.
Конечно, Фишер понимал, что достичь порога статистической значимости – это не то же самое, что найти истину. В 1926 году он писал и о более богатом, более итеративном подходе: «Научный факт следует считать экспериментально установленным только в случае, если должным образом спланированный эксперимент редко не обеспечивает данный уровень значимости»
{134}
.

Здесь сказано не «один раз обеспечивает данный уровень значимости», а «редко не обеспечивает данный уровень значимости». Статистически значимый результат дает вам подсказку по поводу того, на чем следует сосредоточить свою исследовательскую энергию.
Проверка значимости – это детектив, а не судья

. Вам ведь известно: когда вы читаете статью о революционном открытии по поводу того, что это вызывает то-то или что одно предотвращает другое, в конце всегда есть банальное высказывание ведущего ученого, не принимавшего участия в исследовании, который провозглашает нечто несущественное в следующем духе: «Это довольно интересное открытие, предполагающее, что необходимо провести дополнительные исследования в этом направлении»? А ведь вы даже не читаете эту часть публикации, поскольку считаете ее обязательным предостережением, не имеющим смысла.

Но дело вот в чем: ученые всегда говорят так лишь потому, что это важно и это правда! Интересное и ах-какое-статистически-значимое-открытие – это не заключительная часть научного процесса, а его начало. Если получен беспрецедентный, важный результат, другие ученые в других лабораториях должны многократно протестировать этот феномен и его варианты, пытаясь понять, является ли результат счастливой случайностью или он действительно соответствует фишеровскому стандарту «редко не обеспечивает данный уровень значимости». Это и есть то, что ученые называют

воспроизводимостью
: если воздействие нельзя воспроизвести, несмотря на многократные попытки, наука отступает, признавая свою ошибку. Предполагается, что такой процесс воспроизведения должен стать иммунной системой науки, которая атакует новые объекты и уничтожает те из них, которым здесь не место.

Однако это идеал. На практике у науки несколько ослабленный иммунитет. Безусловно, некоторые эксперименты трудно воспроизвести. Если задача вашего исследования состоит в том, чтобы оценить способность четырехлетних детей к отсрочке вознаграждения, а затем соотносит эти данные с итогами жизни тридцать лет спустя, вы не можете просто организовать воспроизведение эксперимента.

Но даже результаты исследований, которые можно было бы повторить, во многих случаях не воспроизводятся. Каждый журнал стремится опубликовать важное открытие, но кто хочет публиковать работу, в которой идет речь о повторении того же эксперимента год спустя с теми же результатами? Что происходит с исследованиями, в ходе которых проводятся такие же эксперименты, но полученный результат не является статистически значимым? Для того чтобы система работала, результаты этих экспериментов необходимо сделать общедоступными. Но вместо этого они слишком часто оказываются в архиве.

Однако культура меняется. Активные реформаторы, как Иоаннидис и Саймонсон, выступающие как перед научным сообществом, так и перед широкой общественностью, подняли вопрос об актуальности такой проблемы, как опасность сползания к крупномасштабному гаданию по внутренностям животных. Ассоциация психологических наук в 2013 году объявила о начале публикации новой категории статей под названием «Отчеты о зарегистрированных случаях воспроизведения результатов исследований». Способ рассмотрения отчетов об экспериментах, ориентированных на воспроизведение результатов широко известных исследований, существенно отличается от того, как рассматриваются обычные работы: материалы предложенного эксперимента принимаются к публикации

до

 проведения самого исследования. Если результаты этого эксперимента подтверждают первоначальный вывод – отлично, если нет, они все равно публикуются, благодаря чему все научное сообщество может получить исчерпывающую информацию о фактическом положении вещей. Еще одно объединение, проект Many Labs, проводит повторную проверку открытий в области психологии, получивших широкую огласку, и пытается воспроизвести их на больших многонациональных выборках. В ноябре 2013 года психологи с воодушевлением приняли первые итоги проверки воспроизводимости, полученные Many Labs: результаты десяти из тринадцати исследований были успешно воспроизведены.

Безусловно, в конечном счете необходимо сделать окончательные выводы и подвести черту. В конце концов, что именно имел в виду Фишер под словом «редко» во фразе «редко не обеспечивает данный уровень значимости»? Присвоив этому слову произвольное числовое значение («воздействие действительно имеет место, если оно достигает статистической значимости в более чем 90 % экспериментов»), мы можем снова оказаться в трудной ситуации.

Как бы там ни было, Фишер не верил в существование непреложного правила, которое говорит нам, что делать. Он не признавал чистого математического формализма. В самом конце своей жизни, в 1956 году, он писал: «В действительности ни у одного ученого нет фиксированного уровня значимости, в соответствии с которым он из года в год, при любых обстоятельствах отбрасывает гипотезы; скорее, он осмысливает каждую конкретную гипотезу в свете имеющихся доказательств и идей»
{135}
.

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Report Page