Как не ошибаться

Джордан Элленберг

Доктор, мне больно, когда я делаю
Р-Р

И это только цветочки. Недостаточно мощное исследование способно обнаружить лишь довольно большое воздействие. Однако в некоторых случаях вам известно, что такое воздействие (если оно существует) совсем небольшое. Другими словами, результат исследования, которое точно оценивает воздействие того или иного гена, скорее всего будет отброшен как статистически незначимый, тогда как любой результат, прошедший тест
p

< 0,05, является либо ложным положительным, либо истинным положительным результатом, что значительно преувеличивает воздействие данного гена. Низкая мощность исследования особенно опасна в областях, в которых часто используются небольшие исследования, а размер воздействия, как правило, совсем небольшой
{122}
. Не так давно в самом авторитетном журнале по психологии Psychological Science была опубликована статья
{123}

, в которой сказано, что замужние женщины с гораздо большей вероятностью поддерживают кандидата на пост президента США от Республиканской партии Митта Ромни в благоприятный для зачатия период овуляторного цикла: из всех женщин, опрошенных в самый благоприятный для зачатия период, 40,4 % женщин высказались в поддержку Ромни, тогда как всего 23,4 % замужних женщин, опрошенных в неблагоприятные для зачатия периоды, отдали свои голоса за Митта
[139]

. В данном случае выборка маленькая (всего 228 женщин), а различие между результатами большое – достаточно большое, чтобы пройти тест на
p
-значение, получив оценку 0,03.
В этом и состоит проблема: различие
слишком
большое. Действительно ли возможно, что среди всех состоящих в браке женщин, испытывающих симпатию к Митту Ромни, почти
половина
на протяжении большой части месяца поддерживают Барака Обаму? Неужели этого никто не заметил бы?

Если даже политический поворот в сторону правых во время овуляции действительно существует, то он, по-видимому, существенно меньше. Однако сравнительно небольшой размер исследуемой выборки означает, что, как ни парадоксально, более реалистичная оценка воздействия будет отброшена фильтром
p
-значения. Другими словами, мы можем быть вполне уверены, что значительное воздействие, о котором свидетельствуют результаты исследования, – это главным образом или всецело всего лишь шум в сигнале.

Однако этот шум с одинаковой вероятностью может направить вас в сторону,
противоположную
реальному воздействию, а может сказать правду
{124}
. В итоге мы остаемся в неведении, получив результат, имеющий высокую статистическую значимость, но весьма низкую достоверность.

Ученые называют эту проблему «проклятие победителя», и это одна из причин, почему при повторном проведении того же опыта впечатляющие, громко расхваливаемые результаты экспериментов зачастую тают, превращаясь в удручающую лужицу. В одном показательном случае группа ученых под руководством Кристофера Шабри
[140]

изучала тринадцать одиночных нуклеотидных полиморфизмов (single-nucleotide polymorphism, далее по тексту – SNP) в геноме, которые в предыдущих исследованиях показали статистически значимую корреляцию с показателем IQ
[141]

. Нам известно, что способность успешно проходить тесты на определение коэффициента интеллекта в какой-то мере передается по наследству, поэтому поиск генетических маркеров не лишен оснований. Однако, когда команда Шабри проверила эти SNP на предмет корреляции с показателями IQ на больших множествах данных (таких как данные висконсинского лонгитюдного исследования, охватившего 10 тысяч человек), все эти связи оказались статистически незначимыми
{125}

: если такие связи и существуют, они почти наверняка настолько слабые, что их невозможно обнаружить даже в ходе крупного эксперимента. В наше время специалисты по геномике считают, что наследственный компонент IQ, по всей вероятности, не сосредоточен в нескольких генах «умности», а скорее, формируется как совокупность многочисленных генетических особенностей, каждая из которых оказывает малое воздействие. Это означает, что, занявшись поиском большого воздействия отдельных полиморфизмов, вы добьетесь успеха – с тем же показателем 1 из 20, что и в случае гадания по внутренностям животных.

На самом деле даже Иоаннидис не считает, что только одна из тысячи опубликованных работ безошибочна. Большинство научных исследований не сводится к произвольному блужданию по геному; они проверяют гипотезы, в отношении которых у исследователей есть основания считать, что они истинны, поэтому нижняя строка матрицы не так уж значительно преобладает над верхней строкой. Однако кризис воспроизводимости результатов исследований действительно имеет место. В 2012 году было проведено исследование, в ходе которого ученые из калифорнийской биотехнологической компании Amgen попытались воспроизвести ряд самых известных экспериментальных результатов исследований в области биологии рака (всего пятьдесят три исследования)

{126}
. В процессе проведения независимых испытаний они смогли воспроизвести результаты лишь шести работ.
Как такое могло произойти? Причина не в том, что специалисты по геномике и ученые, изучающие онкологические заболевания, кретины. В какой-то мере кризис воспроизводимости результатов исследований – это просто отражение того факта, что наука трудна, а большинство идей, которые у нас возникают, оказываются неправильными – даже большинство идей, которые прошли первый круг тестирования.

Однако в мире науки существуют практики, которые еще больше усугубляют кризис воспроизводимости результатов исследований, и их можно изменить. Во-первых, мы используем неправильный подход к публикации научных работ. Рассмотрим в качестве примера ситуацию, изображенную на комиксе.

Предположим, вы проверили двадцать генетических маркеров на наличие связи с тем или иным заболеванием и обнаружили, что только один результат имеет статистическую значимость
p

< 0,05. Будучи грамотным математиком, вы осознаете, что один успешный результат из двадцати – это в точности то, чего вы ожидали бы, если ни один из маркеров не оказывал бы никакого воздействия, и высмеяли бы ничем не обоснованный заголовок, как это пытается сделать художник, нарисовавший этот комикс.
Было бы еще больше оснований утверждать это, если вы протестировали бы тот же ген (или зеленые конфетки из желе) двадцать раз и получили статистически значимый результат только в одном случае.

Но что если двадцать типов конфеток были бы протестированы двадцать раз двадцатью разными исследовательскими группами в двадцати разных лабораториях? В девятнадцати лабораторий не обнаружено статистически значимого воздействия, поэтому исследователи не пишут научные работы по полученным результатам – кто станет публиковать сенсационную новость о том, что зеленые конфетки из желе не имеют никакого отношения к состоянию вашей кожи? Ученые из двадцатой лаборатории (везунчики) обнаруживают статистически значимое воздействие, поскольку им повезло – но они

не знают
, что им повезло. Все, что они могут сказать, так это то, что они всего один раз проверили гипотезу «зеленые конфетки из желе вызывают прыщи», и она прошла тест на статистическую значимость.

Если вы принимаете решение, какого цвета конфетки можно есть, только на основании опубликованных работ, вы совершаете ту же ошибку, что и армейские чиновники, которые подсчитывали пробоины только на самолетах, вернувшихся после воздушных боев. Как отметил Абрахам Вальд, если вы хотите получить правдивую картину происходящего, необходимо принять во внимание и те самолеты, которые
не вернулись
.

Это так называемая проблема архивного ящика: в той или иной области науки формируется крайне искаженная картина доказательств в пользу гипотезы, когда широкое распространение полученных данных ограничено порогом статистической значимости. Но мы уже дали этой проблеме другое название. Речь идет о балтиморском брокере. Везучий ученый, который взволнованно готовит публикацию по теме «Связь между зелеными конфетками из желе и дерматологическими проблемами», напоминает наивного инвестора, который отдает все свои сбережения жуликоватому брокеру. Этот инвестор, так же как и ученый, видит только результаты одного эксперимента, по воле случая завершившегося успешно, но ничего не знает о гораздо более многочисленной группе неудавшихся экспериментов.

Однако здесь есть одно существенное различие. В науке нет нечистых на руку мошенников и невинных жертв. Когда члены научного сообщества отправляют результаты неудавшихся экспериментов в архив, они играют и ту и другую роль.
Они совершают мошенничество по отношению к самим себе
.

И все это при условии, что ученые, о которых идет речь, ведут справедливую игру. Но так бывает не всегда. Помните проблему пространства для маневра, из-за которой попали в ловушку искатели библейских кодов? Ученые, которые вынуждены публиковать свои работы, чтобы не разрушить научной карьеры, могут не устоять перед соблазном того же пространства для маневра. Если вы проводите собственный статистический анализ и получаете
p

-значение 0,06, вы должны сделать вывод, что ваши результаты статистически незначимы. Однако, чтобы отправить результаты многих лет работы в архив, требуется высокая психологическая устойчивость. В конце концов, разве данные об этом конкретном участнике экспериментального исследования не выглядят несколько подозрительными? Если это резко отклоняющееся значение, может быть, стоит попытаться удалить эту строку из таблицы данных. Был ли учтен возраст? Были ли учтены погодные условия? Был ли учтен возраст

и
погодные условия? Если только вы позволите себе слегка подправить и завуалировать результаты статистической проверки полученных данных, во многих случаях вам удастся снизить
p
-значение с 0,06 до 0,04. Профессор Пенсильванского университета Ури Саймонсон, ведущий ученый в области изучения проблемы воспроизводимости результатов исследований, называет эту практику «
p
-хакингом»
{127}
[142]
. Хакинг
p

-значения бывает, как правило, не таким грубым, каким я его здесь представил, и редко происходит по злому умыслу.
P
-хакеры искренне верят в истинность своих гипотез (как в случае искателей библейских кодов), а когда вы верите во что-то, легко обосновать, что анализ, который дает пригодное для публикации
p
-значение, – это именно то, что вам и следовало сделать с самого начала.

Однако все знают, что на самом деле это неправильно. Когда ученым кажется, что их никто не слышит, они говорят о своей практике: «Пытаем данные, пока они не сознаются». Следовательно, достоверность результатов соответствует тому, что можно ожидать от признаний, полученных силой.
Оценить масштаб проблемы
p

-хакинга не так просто: невозможно проанализировать работы, которые были отправлены в архив или вообще не были написаны, подобно тому как нельзя изучить самолеты, сбитые во время воздушых боев, чтобы найти места пробоин. Но вы, так же как Абрахам Вальд, можете сделать ряд логических выводов по поводу данных, которые не можете получить напрямую.

Вспомните о «Международном журнале гаруспиции». Что вы увидели бы, если могли бы изучить все когда-либо опубликованные работы и записать обнаруженные там
p
-значения? Не забывайте о том, что в данном случае нулевая гипотеза неизменно истинна, поскольку гаруспиция не работает. Следовательно, 5 % экспериментов дадут
p
-значение 0,05 или меньше, 4 % получат
p
-значение не более 0,04, 3 % – не более 0,03 и так далее. Эту же идею можно сформулировать так: количество экспериментов, обеспечивающих

p
-значение от 0,04 до 0,05, должно быть примерно таким же, что и в случае
p
-значения от 0,03 до 0,04, от 0,02 до 0,03 и так далее. Если отобразить все
p
-значения, упомянутые во всех работах, которые вы изучили, получится такой плоский график.

Но что если вы посмотрите реальный журнал? Хотелось бы надеяться, что многие из тех феноменов, информацию о которых вы ищете, действительно существуют; это повысит вероятность того, что эксперименты получат хорошее (а значит, низкое)
p

-значение. В таком случае график
p
-значений должен быть нисходящим.

Однако это не совсем то, что происходит в реальной жизни. В самых разных областях науки, от политологии до экономики, психологии и социологии, детективы от статистики обнаружили заметный восходящий наклон графика при приближении
p
-значений к порогу 0,05
{128}
.

Именно этот наклон отображает факт
p
-хакинга. Такой график говорит о том, что результаты многих экспериментов, попадающие на ту сторону границы
p

= 0,05, на которой находятся не подлежащие публикации работы, посредством обмана, незначительных изменений, поправок или элементарного искажения были перенесены на более благоприятную сторону графика. Это хорошо для ученых, но плохо для науки.
Но что если автор работы отказывается истязать данные или если пытки все равно не дают требуемого результата и
p

-значение остается на уровне, слегка превышающем столь важный порог 0,05? В этом случае есть обходные пути. Ученые придумывают замысловатые формулировки, пытаясь оправдать получение результатов, не достигших порога статистической значимости. Они говорят, что эти результаты «почти значимы», «склоняются к значимости», «находятся на грани значимости» или даже что они «колеблются на пределе значимости»
[143]

. Конечно, можно было бы просто высмеять испытывающих такие муки исследователей, полагающихся на подобные фразы, но мы должны критиковать игру, а не игроков, ведь
не они

виновны в том, что публикация результатов их работы зависит от принципа «все или ничего». Принимать решение «жить или умереть» исключительно по значению 0,05 означало бы совершить крупную ошибку, обращаясь с непрерывной переменной (сколько у нас есть доказательств в пользу того, что лекарственный препарат работает, ген определяет IQ, а женщины в фертильный период отдают предпочтение республиканцам?) так, будто это бинарная переменная (истинный или ложный? да или нет?). Ученым
необходимо

дать возможность составлять отчеты о статистически незначимых данных.
В некоторых ситуациях их даже можно вынудить сделать это. Верховный суд США в 2010 году единогласно вынес решение, что Matrixx, производитель средства от простуды Zicam, обязан раскрыть информацию о том, что у некоторых пациентов, принимавших этот препарат, возникла аносмия, потеря обоняния
{129}

. В этом судебном решении, которое составила Соня Сотомайор, было сказано, что, хотя данные о случаях аносмии не прошли проверку значимости, они все-таки входят в «общую совокупность» информации, на доступ к которой у инвесторов компании есть полное право. Результат с низким
p
-значением может представлять собой слабое доказательство, но слабое доказательство – это лучше, чем полное его отсутствие; результат с высоким
р

-значением мог бы стать более сильным доказательством, но, как мы уже видели, он все равно далек от подтверждения того факта, что заявленное воздействие реально.

Если уж на то пошло, в значении 0,05 нет ничего особенного. Это абсолютно произвольное значение, чистая условность, которую выбрал Фишер. Такое условное значение имеет свою ценность: благодаря единой пороговой величине, которую принимают все, мы знаем, о чем говорим, когда произносим слово «значимый». В свое время я прочитал статью Роберта Ректора и Кирка Джонсона о консервативной организации Heritage Foundation (фонд «Наследие»), которая жаловалась на ошибочное заявление конкурирующей группы ученых по поводу того, что обет воздержания не оказывает никакого воздействия на уровень распространенности заболеваний, передающихся половым путем, в подростковом возрасте

{130}
. На самом деле среди принимавших участие в исследовании юношей и девушек до 20 лет, которые дали обет воздержания до первой брачной ночи, уровень распространенности заболеваний, передающихся половым путем, действительно был немного ниже, чем среди остальных членов выборки, но это различие не было статистически значимым. Представители фонда «Наследия» были в чем-то правы: доказательства того, что обет воздержания работает, были слабыми, но они все-таки были.

В то же время Ректор и Джонсон пишут в другой работе по теме статистически незначимой связи между расой и бедностью, которую они хотели бы отбросить: «Если переменная не является статистически значимой, это означает, что у этой переменной нет статистически заметной разницы между значением коэффициента и нолем, а значит, нет и воздействия»
{131}

. Что хорошо для трезвой гусыни, то хорошо и для перебравшего гусака! Ценность условной границы состоит в том, что она в какой-то мере дисциплинирует исследователей, удерживая их от искушения позволить собственным предпочтениям определять, какие результаты имеют значение, а какие нет.

Однако условную границу, если придерживаться ее достаточно долго, можно ошибочно принять за то, что действительно происходит в реальном мире. Представьте, что было бы, если мы говорили бы в таком духе о состоянии экономики! У экономистов есть формальное определение рецессии, которое зависит от произвольных пороговых значений, как и в случае статистической значимости. Никто не скажет: «Меня не интересует уровень безработицы, или количество строящихся жилых домов, или совокупный объем задолженности по студенческим кредитам, или дефицит федерального бюджета; если это не рецессия, мы не станем это обсуждать». Было бы глупо так говорить. Однако критики (а их с каждым годом все больше, и их голоса становятся все громче) заявляют о том, что значительная часть научной практики – это такая же глупость.

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Как не ошибаться

Доктор, мне больно, когда я делаю Р-Р

Report Page

Доктор, мне больно, когда я делаю
Р-Р