Как не ошибаться

Как не ошибаться

Джордан Элленберг

Парапсихологическое радио и правило Байеса

Чем обусловлен этот явный парадокс красного списка террористов? Почему механизм
р
-значения, который кажется столь разумным, так плохо работает в таком контексте? Причина вот в чем:
р

-значение учитывает, какую долю пользователей Facebook отмечает флажком (примерно 1 из 2000), но полностью игнорирует относительное количество людей, которые принадлежат к числу террористов. Когда вы пытаетесь определить, является ли ваш сосед тайным террористом, у вас есть важная предварительная информация: большинство людей не террористы! Попробуйте проигнорировать этот факт. Как сказал Рональд Эйлмер Фишер, вы должны оценить каждую гипотезу «в свете эмпирических данных» о том, что вы уже о ней знаете.

Но как это сделать?
Здесь необходимо вспомнить историю о парапсихологическом радио.

В 1937 году все были помешаны на телепатии. Книга психолога Джозефа Бэнкса Райна New Frontiers of the Mind («Новые рубежи разума»), которая в успокаивающе рассудительном тоне, с использованием количественных оценок рассказывала удивительные вещи об экспериментах Райна с экстрасенсорным восприятием в Университете Дьюка, стала бестселлером и лучшей книгой по версии клуба «Книга месяца», а парапсихологические способности были животрепещущей темой разговоров во время коктейлей по всей стране
{143}

. Эптон Синклер, автор известного романа The Jungle («Джунгли»)
[148]
, выпустил в 1930 году целую книгу Mental Radio («Ментальное радио») об экспериментах Райна и о парапсихологическом взаимодействии со своей женой Мэри. Эта тема была настолько популярной, что Альберт Эйнштейн написал предисловие к немецкому изданию книги; ученый не стал активно поддерживать идею телепатии, но отметил, что книга Синклера «заслуживает самого пристального внимания» со стороны психологов.

Разумеется, средства массовой информации хотели поучаствовать в общем безумии. Компания Zenith Radio Corporation в сотрудничестве с Райном организовали 5 сентября 1937 года масштабный эксперимент, который был возможен только благодаря имеющейся в их распоряжении новой технологии коммуникации. Пять раз подряд ведущий эксперимента запускал колесо рулетки, а несколько людей, считающих себя телепатами, смотрели на него. При каждом запуске колеса шарик останавливался либо в черной, либо красной ячейке, а парапсихологи изо всех сил концентрировали свое внимание на соответствующем цвете, передавая по всей стране сигнал по собственному каналу вещания. Слушателей радиостанции попросили использовать свои парапсихологические способности для максимальной передачи ментального сигнала и написать в адрес радиостанции письмо, указав последовательность из пяти цветов, сигнал о которых они получили. Ответили более сорока тысяч слушателей радиостанции, и даже в следующих передачах, когда эксперимент утратил свою новизну, в Zenith Radio Corporation получали тысячи ответов в неделю. Это была проверка парапсихологических способностей в масштабе, недоступном для Райна, работавшем в своем кабинете в Университете Дьюка с каждым испытуемым в отдельности. Этот эксперимент был своего рода предтечей эры больших данных.

В конечном счете результаты эксперимента оказались неблагоприятными для телепатии. Однако накопленные данные об ответах оказались весьма полезными для психологов в совершенно другом смысле. Слушатели пытались воспроизвести последовательности черных и красных ячеек (далее будем обозначать их буквами B (black – черные ячейки) и R (red – красные ячейки)), выпавших в случае пяти вращений колеса рулетки. Вот эти 32 возможные последовательности:


Все эти последовательности могут реализоваться с равной вероятностью, поскольку каждое вращение колес с равной вероятностью приводит к попаданию шарика в красную или черную ячейку. А поскольку на самом деле слушатели не принимали никаких парапсихологических эманаций, можно предположить, что их ответы с равной вероятностью совпадут с одним из этих 32 вариантов.
Но это не так. В действительности открытки с ответами, которые прислали слушатели, были распределены весьма неравномерно
{144}

. Такие последовательности, как BBRBR и BRRBR, слушатели присылали намного чаще, чем можно было бы ожидать при условии случайного выбора, тогда как последовательность RBRBR встречалась гораздо реже, чем ожидалось, а последовательности RRRRR почти не было
[149]
.
Скорее всего, это вас не удивляет. Последовательность RRRRR почему-то
не кажется

случайной, как в случае последовательности BBRBR, хотя вращение колеса рулетки может привести к появлению обеих последовательностей с равной вероятностью. Что происходит? Что мы на самом деле подразумеваем, когда говорим, что одна последовательность букв «менее случайна», чем другая
[150]
?
Вот еще один пример. Быстро загадайте число от 1 до 20.
Вы выбрали 17?
Да, этот фокус не всегда срабатывает, но если вы предложите людям выбрать число от 1 до 20, число 17 выбирают чаще всего
{145}

. А если вы попросите выбрать число от 0 до 9, чаще всего выбирают 7
{146}
. Напротив, числа, которые заканчиваются на 0 и 5, выбирают гораздо реже, чем можно было бы ожидать от ряда случайных чисел, – они просто
кажутся

людям менее случайными. Это приводит к возникновению парадокса. Подобно тому как участники эксперимента с парапсихологическим радио пытались составить случайные последовательности R и B, получив в итоге совершенно неслучайный результат, так и люди, выбирающие случайные числа, склонны делать выбор, заметно отклоняющийся от случайности.

В Иране в 2009 году проводили президентские выборы, которые выиграл действующий на то время президент Махмуд Ахмадинежад. После этого появилось множество обвинений, что результаты выборов были сфальсифицированы. Но как можно проверить легитимность подсчета голосов в стране, правительство которой не допустило к участию в этом процессе независимых наблюдателей?

Двое студентов магистратуры Колумбийского университета Бернд Бебер и Александра Скаццо придумали хитрый способ использовать сами числа в качестве доказательства фальсификации, по сути «убедив» официальные данные о подсчете голосов свидетельствовать против самих себя
{147}

. Они проанализировали официальные общие результаты четырех основных кандидатов в каждой из двадцати девяти провинций Ирана, то есть всего 116 чисел. Если это были бы подлинные результаты голосования, последние цифры чисел могли быть только случайными. Они должны были быть случайным образом распределены среди цифр 0, 1, 2, 3, 4, 5, 6, 7, 8 и 9, причем почти равномерно: каждая из этих цифр должна была появиться в результатах подсчета голосов в 10 % случаев.

Но вот как выглядели результаты подсчета голосов в Иране на самом деле. Среди последних цифр проанализированных чисел было слишком много цифр 7, гораздо больше справедливой доли. Это были не цифры, полученные в результате случайного процесса, а цифры, написанные людьми, которые пытались придать им случайный
вид
. Само по себе это не является доказательством, что результаты выборов были сфальсифицированы, но дает основания так считать
[151]
.

Мы, люди, всегда делаем умозаключения, всегда используем наблюдения, для того чтобы уточнить свои суждения по поводу различных конкурирующих теорий, сталкивающихся друг с другом в рамках нашего представления о мире. В некоторых концепциях мы убеждены твердо, почти непоколебимо («Завтра солнце взойдет», «Когда вы выпускаете вещи из рук, они падают»), но в других уверены менее («Если сегодня я сделаю зарядку, то буду хорошо спать ночью», «Телепатии не существует»). У нас есть теории по поводу большого и малого, по поводу того, с чем мы сталкиваемся каждый день, и того, с чем мы столкнулись лишь один раз в жизни. Когда мы находим доводы за или против этих концепций, наша уверенность в них колеблется то в одну, то в другую сторону.

Наша стандартная теория в отношении колеса рулетки состоит в том, что на нем равное количество красных и черных ячеек, а также что шарик с одинаковой вероятностью попадает на красное или на черное. Но есть и конкурирующие теории: например, на колесе больше ячеек того или иного цвета
[152]
. Давайте упростим ситуацию и будем исходить из предположения, что в вашем распоряжении есть только три теории.
red (больше красных ячеек): колесо сделано так, чтобы шарик попадал на красное в 60 % случаев.

fair (равное количество ячеек): на колесе равное количество ячеек обоих цветов, поэтому шарик в половине случаев попадает на красное и в половине случаев – на черное.
black (больше черных ячеек): колесо сделано так, чтобы шарик попадал на черное в 60 % случаев.

Какую степень достоверности вы приписываете этим трем теориям? Возможно, вы считаете, что на колесе рулетки одинаковое количество черных и красных ячеек, если только у вас нет оснований думать иначе. Может быть, по вашему мнению, равное количество ячеек (fair) – это правильная теория с вероятностью 90 %, что оставляет по 5 % теории о том, что больше черных ячеек (black), и теории о том, что больше красных ячеек (red). Мы можем нарисовать для этой ситуации такую же матрицу, как и для списка Facebook.



В этой матрице записано то, что в теории вероятностей обозначается термином «априорная вероятность». Разные люди по-разному оценивают значения априорной вероятности: настоящий циник мог бы приписать каждой теории вероятность 1/3, тогда как человек с твердой верой в высокую нравственность производителей колес рулетки может приписать теориям red и black вероятность всего 1 % в случае каждой из них.

Однако эти априорные вероятности не являются фиксированными. Если мы получим данные, говорящие в пользу той или иной теории (скажем, шарик пять раз подряд выпадает на красное), степень нашей уверенности в истинности различных теорий может измениться. Как это могло бы проявиться в данном случае? Лучший способ выяснить это сводится к тому, чтобы рассчитать больше условных вероятностей и нарисовать матрицу большего размера.

Какова вероятность, что мы запустим колесо рулетки пять раз и получим последовательность RRRRR? Ответ зависит от того, какая теория истинна. В случае теории fair при каждом запуске колеса рулетки вероятность того, что шарик попадет в красную ячейку, равна 1/2, а значит, вероятность получения последовательности RRRRR составляет

1/2 × 1/2 × 1/2 × 1/2 × 1/2 = 1/32 = 3,125 %.

Другими словами, вероятность последовательности RRRRR точно такая же, как и в случае остальных 31 последовательности.

Однако, если верна теория BLACK, вероятность попадания шарика в красную ячейку при каждом запуске равна 40 %, или 0,4, а значит, вероятность последовательности RRRRR составляет:

0,4 × 0,4 × 0,4 × 0,4 × 0,4 = 1,024 %.

Если же верна теория red, вероятность попадания шарика в красную ячейку при каждом запуске равна 60 %, а значит, вероятность последовательности RRRRR составляет:

0,6 × 0,6 × 0,6 × 0,6 × 0,6 = 7,76 %.

Теперь давайте увеличим количество клеток в матрице с трех до шести.


Столбцы этой матрицы по-прежнему соответствуют трем теориям: black, fair и red. Но теперь мы разбиваем каждый столбец на две клетки, одна из которых соответствует получению последовательности RRRRR, а другая – отсутствию этой последовательности. Мы уже выполнили все математические вычисления, необходимые для определения чисел, которые необходимо записать в клетках матрицы. Например, априорная вероятность того, что fair – это правильная теория, составляет 0,9. А 3,125 % от этой вероятности, 0,9 × 0,03125 (или около 0,0281), следует записать в клетке, в которой fair – правильная теория, а шарики выпадают в последовательности RRRRR. Число 0,8719 попадает в клетку «теория fair истинна, не RRRRR», так что сумма вероятностей в столбце fair составляет 0,9.

Априорная вероятность попадания в столбец red равна 0,05. Следовательно, вероятность того, что теория red истинна и что шарики выпадают в последовательности RRRRR, составляет 7,76 % от 5 %, или 0,0039. Это составляет 0,0461 для клетки «теория red истинна, RRRRR».

Теория black также имеет априорную вероятность 0,05. Однако эта теория не так хорошо согласуется с вероятностью последовательности RRRRR. Вероятность того, что теория black истинна, а шарики выпадают в последовательности RRRRR, равна всего 1,024 % от 5 %, или 0,0005.
Вот как выглядит наша матрица с заполненными клетками.


(Обратите внимание, что сумма чисел во всех клетках матрицы равна единице. Именно так и должно быть, поскольку шесть клеток матрицы представляют все возможные варианты.)

Что произойдет с нашими теориями, если мы запустим колесо и 
действительно

получим последовательность RRRRR? Это была бы хорошая новость для теории red и плохая новость для теории black. Именно это мы и видим. Попадание шарика в красные ячейки пять раз подряд означает, что мы находимся в нижней строке матрицы из шести клеток, причем вероятность 0,0005 соответствует теории black, 0,028 теории fair и 0,0039 теории red. Другими словами, при условии формирования последовательности RRRRR наша новая оценка состоит в том, что вероятность истинности теории fair в семь раз больше вероятности теории red, а вероятность теории red примерно в восемь раз больше вероятности теории black.

Если вы хотите перевести эти относительные величины в вероятность, выраженную в процентах, вам нужно просто вспомнить, что общая вероятность
всех
возможных вариантов должна быть равной единице. Сумма чисел в нижней строке равна 0,0325; следовательно, чтобы обеспечить сумму этих чисел, равную единице, без изменения соотношения между ними, можно просто разделить каждое число на 0,0325. В итоге вы получите следующее.
Вероятность того, что теория black истинна, равна 1,5 %.

Вероятность того, что теория fair истинна, равна 86,5 %.
Вероятность того, что теория red истинна, равна 12 %.
Степень вашей уверенности в истинности теории red увеличилась почти в два раза, тогда как уверенность в теории black почти полностью сошла на нет. Этого и следовало ожидать! Вы видите, как шарик выпадает на красное пять раз подряд, так почему бы вам не начать более серьезно подозревать, что игра нечестная?

Шаг «разделить все на 0,0325» может показаться ситуативным трюком. Но на самом деле это действительно необходимо сделать. Если вам трудно понять это на интуитивном уровне, вот еще одна картина происходящего, которая многим нравится больше. Представьте себе, что есть десять тысяч колес рулетки. И есть десять тысяч комнат, в которых находятся разные колеса, и за каждым колесом играет какой-то человек. Один из людей, играющих в рулетку, – это вы. Но вы не знаете, какое именно колесо вам досталось! В таком случае можно построить модель вашего незнания истинного характера колеса, предположив, что среди исходных десяти тысяч колес в пяти сотнях колес было сделано больше черных ячеек, еще в пяти сотнях больше красных ячеек (red), а в остальных девяти тысячах колес равное количество черных и красных ячеек (fair).

Выполненные выше расчеты говорят о том, что последовательность RRRRR может быть в случае 281 колеса fair, 39 колес red и только 5 колес black. Следовательно, получив последовательность RRRRR, вы все равно не знаете, в какой из десяти тысяч комнат находитесь, но вам удалось существенно сократить количество вариантов: вы находитесь в одной из 325 комнат, в которых шарик выпал на красное пять раз подряд. А среди этих комнат в 281 из них (около 86,5 %) колеса fair, в 39 (12 %) колеса red и только в 5 (1,5 %) колеса black.

Чем больше шариков попадает в красные ячейки, тем более благосклонно вы будете относиться к теории red (и тем меньше будете доверять теории black). Если вы увидели бы, как шарик попадает в красные ячейки десять раз подряд, а не пять, те же вычисления повысили бы вашу оценку вероятности истинности теории red до 25 %.

Мы с вами рассчитали, как степень нашей уверенности в истинности различных теорий должна измениться после того, как шарик попадет в красную ячейку пять раз подряд. Полученная величина называется «апостериорная вероятность». Подобно тому как априорная вероятность описывает степень вашей уверенности в истинности теории до получения эмпирических данных, апостериорная вероятность характеризует степень уверенности после получения данных. При этом мы делаем
байесовский вывод

, поскольку переход от априорной к апостериорной вероятности основан на старой формуле теории вероятностей, которая называется
теоремой Байеса

. Эта теорема представлена в виде короткого алгебраического выражения, которое я вполне мог бы написать для вас прямо здесь и сейчас. Но я попытаюсь не делать этого, поскольку, если вы начнете применять формулу сугубо механически, не задумываясь о сложившейся ситуации, это может затруднить понимание того, что происходит на самом деле. Все, что вам нужно знать о происходящем здесь, уже можно увидеть в представленной выше матрице
[153]
.

Апостериорная вероятность зависит не только от эмпирических данных, которые вы получаете, но и от априорной вероятности. Циник, который начал с априорной вероятности теорий black, fair и red, равной 1/3, отреагирует на пять красных ячеек подряд апостериорной оценкой, согласно которой вероятность истинности теории red равна 65 %. Доверчивый человек, который начинает с присвоения теории red вероятности всего 1 %, даст ей шанс быть истинной всего 2,5 % даже после того, как шарик выпадет на красное пять раз подряд.

В байесовской системе степень вашей уверенности в чем-то
после
получения эмпирических данных зависит не только от того, о чем говорят эти данные, но и от того, в какой степени вы были уверены в этом в самом начале.

Это может показаться настораживающим. Разве наука не должна быть объективной? Вам хотелось бы заявить, что ваши убеждения основаны на одних только фактах, а не на каких-то априорных предубеждениях, с которыми вы вошли в эту дверь. Но давайте посмотрим правде в глаза: на самом деле ни у кого убеждения не формируются таким способом. Если в результате эксперимента получены статистически значимые доказательства, что новая модификация существующего лекарственного препарата замедляет развитие некоторых разновидностей рака, скорее всего вы будете достаточно уверены в эффективности нового препарата. Но, если вы получите те же результаты, поместив пациентов в пластиковую модель Стоунхенджа, разве примете вы, пусть даже неохотно, вывод, что это древнее сооружение действительно фокусирует энергию колебаний Земли на организме человека и останавливает развитие опухоли? Нет, не примете, потому что это полная чушь. Вы подумаете, что, по всей видимости, Стоунхенджу просто повезло. У вас разные априорные оценки этих двух теорий, поэтому в итоге вы по-разному интерпретируете эмпирические данные, несмотря на то что в численном выражении они одинаковы.

То же самое можно сказать об алгоритме поиска террористов, применяемом в Facebook, и о вашем соседе по дому. Присутствие соседа в списке потенциальных террористов действительно наводит на мысль, что он может им быть. Но ваша априорная вероятность истинности этой гипотезы должна быть крайне малой, поскольку большинство людей не являются террористами. Следовательно, несмотря на факт включения соседа в список, ваша апостериорная вероятность остается такой же малой, и вы не беспокоитесь по этому поводу – во всяком случае, не должны беспокоиться.

Полагаться исключительно на проверку значимости нулевой гипотезы – это значило бы поступать совершенно не по-байесовски: строго говоря, такой подход предлагает нам относиться к лекарству от рака и к пластиковому Стоунхенджу с одинаковым уважением. Можно ли считать это ударом по взглядам Фишера на статистику? Напротив. Когда Фишер говорит, что «ни у одного ученого нет фиксированного уровня значимости, в соответствии с которым он из года в год, при любых обстоятельствах отбрасывает гипотезы; скорее, он осмысливает каждую конкретную гипотезу в свете имеющихся доказательств и идей», он имеет в виду, что к научному выводу нельзя (или как минимум не следует) подходить сугубо механически; необходимо учитывать также сформировавшиеся ранее идеи и убеждения.

Впрочем, Фишер не был специалистом по байесовской статистике. В наши дни это словосочетание относится к целой совокупности практик и систем взглядов в статистике (когда-то не очень популярных, но сейчас довольно распространенных), которым свойственно общее расположение к аргументации, основанной на теореме Байеса, однако это не просто вопрос принятия во внимание как прежних убеждений, так и новых эмпирических данных. Байесов подход получил наибольшее распространение в различных видах вывода (например, в случае обучения вычислительных машин способности учиться на основе большого объема информации, полученной от человека), плохо сочетающихся с вопросами «да или нет», на решение которых был рассчитан подход Фишера. В действительности специалисты по байесовской статистике зачастую вообще не думают о нулевой гипотезе. Вместо того чтобы задавать вопрос: «Оказывает ли новый лекарственный препарат какое-либо воздействие?» – они могут больше интересоваться наиболее вероятным предположением прогностической модели, описывающей воздействие разных доз препарата на разные группы людей. А когда эти специалисты действительно говорят о гипотезах, они относительно свободно говорят о вероятности того, что гипотеза (скажем, новый препарат лучше существующего) истинна. Фишер не испытывал такой непринужденности в отношении вероятности истинности гипотез. Он считал, что язык вероятности используется должным образом только в ситуации, в которой имеет место некий реальный случайный процесс.

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Report Page