(Не)совершенная случайность

Леонард Млодинов

Очевидно, что многие детали байесовской теории довольно сложны. Но как я уже говорил, во время анализа задачи про двух дочерей я использовал новые данные для «урезания» пространства элементарных событий и соответственной выверки вероятностей. В задаче с двумя дочерьми пространство элементарных событий изначально было таким: (мальчик, мальчик), (мальчик, девочка), (девочка, мальчик), (девочка, девочка), однако оно сокращается до следующих параметров: (мальчик, девочка), (девочка, мальчик), (девочка, девочка), если вы узнаете, что один из детей — девочка, что шансы на семью из двух девочек составляют 1 из 3. Попробуем применить эту несложную стратегию и посмотрим, что выйдет при условии, если вам станет известно следующее: один из детей — девочка по имени Флорида.

В задаче про девочку по имени Флорида нас интересует помимо пола детей еще и имя, поскольку речь о девочках. Наше первоначальное пространство элементарных событий должно включать в себя все вероятности, поэтому список содержит и пол, и имя. Обозначим девочку по имени Флорида как «девочка Ф», а девочку по имени не Флорида как «девочка не Ф». Обозначим пространство элементарных событий: (мальчик, мальчик), (мальчик, девочка Ф.), (мальчик, девочка не Ф.), (девочка Ф., мальчик), (девочка не Ф., мальчик), (девочка не Ф., девочка Ф.), (девочка Ф., девочка не Ф.), (девочка не Ф., девочка не Ф.), (девочка Ф., девочка Ф.).

Ну а теперь «урежем». Так как нам известно, что один из детей — девочка по имени Флорида, можно сократить пространство элементарных событий: (мальчик, девочка Ф.), (девочка Ф., мальчик), (девочка не Ф., девочка Ф.), (девочка Ф., девочка Ф.). Теперь видно, чем еще эта задача отличается от задачи про двух дочерей. Поскольку утверждения, что девочку зовут Флорида и девочку зовут не Флорида, нельзя назвать равновероятными, не являются таковыми и все элементы пространства элементарных событий.

В 1935, последнем году, за который Управление социальным обеспечением предоставило статистику в отношении имени, около 1 из 30 000 девочек были наречены именем Флорида
{106}

. Поскольку имя становилось все менее популярным, предположим, что сегодня вероятность появления девочки по имени Флорида равна 1 из 1 млн. Это значит следующее: если нам станет известно, что определенную из двух девочку зовут не Флорида, ничего страшного, однако если мы узнаем, что ее зовут Флорида, можно сказать, что мы попали в точку. Вероятность того, что обеих девочек назовут именем Флорида (даже если мы проигнорируем тот факт, что обычно родители избегают давать детям одинаковые имена), настолько мала, что можно спокойно ею пренебречь. Итак, вот что у нас остается: (мальчик, девочка Ф.), (девочка Ф., мальчик), (девочка не Ф., девочка Ф.), (девочка Ф., девочка не Ф.). Все эти события в весьма хорошем приближении равновозможны.

Поскольку 2 из 4, то есть половина элементов пространства элементарных событий являются семьями с двумя девочками, ответом не может быть 1 из 3 — как это было в задаче с двумя дочерьми, — ответом является 1 из 2. Все дело в дополнительной информации — осведомленности насчет имени девочки.

Если вы по-прежнему теряетесь в догадках, то можно представить себе следующее: в очень-очень большой комнате мы собираем 75 млн семей с двумя детьми, из которых хотя бы один ребенок — девочка. Как нам стало известно из задачи с двумя дочерьми, в комнате окажется около 25 млн семей с двумя девочками и 50 млн семей с одной девочкой (25 млн семей, в которых девочка является старшим ребенком, и столько же семей, в которых девочка является младшим ребенком). Далее «урезаем»: просим остаться в комнате только те семьи, в которых есть девочки по имени Флорида. Поскольку Флорида — 1 имя на 1 млн имен, останутся около 50 из 50 млн семей с одной девочкой. А из 25 млн семей с двумя девочками 50 тоже останутся: 25 потому, что их первый ребенок назван по имени Флорида, другие 25 потому, что их младшая дочь названа Флоридой. В этом примере всех девочек можно представить как лотерейные билеты; в таком случае девочки по имени Флорида станут выигрышными билетами. И хотя семей, в которых один из двух детей — девочка, в два раза больше, чем семей, в которых оба ребенка — девочки, семьи с двумя девочками обладают двумя лотерейными билетами, поэтому среди выигравших будет примерно одинаковое соотношение семей с одной девочкой и семей с двумя девочками.

В теории я расписал задачу про девочку по имени Флорида уж очень подробно, до такой степени, что иногда из-за этого моего пристрастия к деталям меня не приглашают на свои дружеские посиделки соседи. Но я поступил так не потому, что ожидал от вас того же самого, что и от своих соседей. Дело в том, что контекст прост, а аналогичный ход рассуждений прояснит многие ситуации, реальные для нашей повседневной жизни. Давайте поговорим о них.

Лично я наиболее яркими воспоминаниями, связанными с преподобным Байесом, обязан одной из пятниц 1989 г.: в тот день позвонил лечащий врач и сообщил, что жить мне осталось от силы лет десять, причем вероятность этого прогноза равна 999 из 1 000. Он еще прибавил: «Мне действительно очень жаль», как будто у него бывали пациенты, которым он говорил о своем сожалении, но на самом деле ничего подобного к ним не испытывал. Далее врач ответил на кое-какие вопросы относительно протекания болезни, после чего повесил трубку: видимо, торопился сообщить очередному пациенту крайне важную для того новость. Тяжело говорить, даже вспоминать о том, что я пережил за субботу и воскресенье, скажу только, что ни в какой Диснейленд я не поехал. Но раз мне был вынесен смертный приговор, почему я все еще жив, почему сижу и пишу об этом?

А началось все с того, что мы с женой решили застраховаться. В заявлении говорилось, что мы должны предоставить результаты анализа крови. Через неделю-две нам отказали в страховании. Крайне экономная страховая компания выслала нам два коротеньких извещения, которые были одинаковы, только текст в извещении на имя жены оказался на одно слово длиннее, чем текст в извещении на мое имя. В моем извещении говорилось, что компания отказывает мне в страховании на основании «результатов Вашего анализа крови». В извещении для моей жены говорилось, что компания не может застраховать ее жизнь на основании «результатов анализа крови Вашего мужа». Когда выяснилось, что в этом самом слове, «муж», и кроется разгадка того, почему добросердечные страховщики отказывают нам в страховании, я, действуя интуитивно, пошел к врачу и сдал анализ на ВИЧ. Результаты оказались положительными. И хотя я поначалу был слишком потрясен, чтобы поинтересоваться у врача о высказанной им вероятности, позднее мне стало известно, что он вычислил мой 1 из 1 000 шанс на жизнь из следующих статистических данных: лишь в 1 случае из 1 000 анализ на ВИЧ может дать положительный результат, пусть даже кровь при этом и не заражена вирусом СПИДа. Может показаться, что врач сказал то же самое, однако это не так. Врач перепутал вероятность того, что результаты моего анализа будут положительными, если я не являюсь ВИЧ-инфицированным, с вероятностью того, что я могу и не быть ВИЧ-инфицированным, даже если результаты моего анализа окажутся положительными.

Чтобы разобраться, где ошибся врач, прибегнем к методу Байеса. Первым делом очертим пространство элементарных событий. Можно включить в него всех, кто когда-либо сдавал анализы на ВИЧ, но мы получим более точные результаты, если примем во внимание некоторые дополнительные, имеющие непосредственное отношение к теме сведения обо мне: рассмотрим только гетеросексуальных, не принимающих наркотиков белых американцев мужского пола, которые сдавали анализы на ВИЧ. (Далее мы увидим, какое это имеет значение.)

Теперь, когда мы знаем, кого следует включить в пространство элементарных событий, распределим членов этого пространства по категориям. Вместо деления на мальчиков и девочек выберем деление на тех, кто у кого анализы оказались ВИЧ-положительными и кто ВИЧ-положителен (истинная положительность), тех, у кого анализы оказались положительными, но кто на самом деле не положителен (ложная положительность), тех, у кого анализы оказались ВИЧ-отрицательными и кто ВИЧ-отрицателен (истинная отрицательность), тех, у кого анализы оказались ВИЧ-отрицательными, но кто на самом деле ВИЧ-положителен (ложная отрицательность).

Наконец задаем вопрос: сколько людей в каждой из этих категорий? Предположим, мы рассматриваем изначально население из 10 000 человек. Пользуясь статистическими данными Центра по контролю и профилактике заболеваемости, подсчитаем, что в 1989 г. около 1 из 10 000 гетеросексуальных, не принимающих наркотиков белых американцев мужского пола, сдавших анализы, оказались ВИЧ-инфицированными
{107}

. Предположим, что в категории «ложная отрицательность» показатель равен 0, тогда около 1 человека из каждых 10 000 сдавших анализы окажется положительным из-за наличия инфекции. К тому же поскольку показатель «ложной отрицательности» равен, по словам врача, 1 из 1 000, наберется около 10 тех, кто не заражен ВИЧ, однако анализы которых тем не менее окажутся положительными. У остальных 9 989 человек из 10 000, составляющих пространство элементарных событий, результаты анализов окажутся отрицательными.

Теперь «урежем» пространство элементарных событий — включим в него только тех, результаты анализов которых оказались положительными. У нас останется 10 человек из категории «ложная положительность» и 1 человек из категории «истинная положительность». Другими словами, лишь 1 человек из 11, результаты анализов которых оказались положительными, действительно ВИЧ-инфицирован. Врач сказал мне: вероятность того, что в анализе ошибка — на самом же деле я был совершенно здоров, — равна 1 из 1 000. А на самом деле ему следовало сказать следующим образом: «Не волнуйтесь, шансы на то, что вы на самом деле не инфицированы, выше 10 из 11». В моем случае на результаты пробы для выявления скрытой формы заболевания повлияли определенные метки, которые присутствовали в моей крови, хотя вирус, ради которого и брали пробу, отсутствовал.

При оценке любого диагностического испытания важно знать, каков показатель «ложной положительности». Например, анализ, который выявляет 99% всех злокачественных опухолей, производит сильное впечатление, однако я с легкостью могу придумать анализ, который выявляет 100% всех злокачественных опухолей. Для этого мне только и надо что находить у каждого осматриваемого пациента опухоль. Статистический показатель, отличающий мой анализ от действительно полезного, заключается в следующем: в результате моего анализа показатель «ложной положительности» окажется высоким. Однако вышеприведенный пример демонстрирует: осведомленности о показателе «ложной положительности» недостаточно для того, чтобы определить, полезен анализ или не полезен. Необходимо также знать, как показатель «ложной положительности» соотносится с истинной распространенностью заболевания. Если заболевание обычное, положительный результат будет гораздо более убедительным. Чтобы увидеть, как истинная распространенность связана с положительными результатами анализа, предположим, что я гомосексуалист, и результаты анализа у меня положительные. Предположим, что в сообществе гомосексуалистов вероятность заражения среди тех, кто сдал анализы в 1989 г., была около 1%. Что значит: среди результатов 10 000 анализов мы должны обнаружить не 1 (как ранее), а 100 «истинно положительных» вместе с 10 «ложно положительными». Таким образом, в данном случае вероятность того, что положительный результат означал мою инфицированность, должна была равняться 10 из 11. Вот почему при оценке результатов неплохо выяснить: относитесь вы к группе повышенного риска или нет.

Теория Байеса говорит о следующем: вероятность того, что А произойдет, если произойдет В, обычно отличается от вероятности того, что В произойдет, если А произойдет
{108}

. Что не принимается во внимание и является частой ошибкой среди врачей. Например, во время исследований в Германии и США терапевтов попросили подсчитать вероятность того, что не обнаруживающая симптомов рака женщина в возрасте между 40 и 50, чья маммограмма показывает рак, на самом деле больна раком груди, если при этом в 7% случаев маммограммы диагностируют рак, когда на самом деле его нет
{109}

. Кроме того, врачам сообщили, что в реальности частота возникновения заболевания равна примерно 0,8% и что «ложно отрицательные» результаты равны примерно 10%. Принимая все вышесказанное во внимание, можно с помощью метода Байеса определить, что «положительная» маммограмма диагностирует рак лишь примерно в 9% всех случаев. Однако в немецкой группе треть врачей пришли к выводу, что вероятность равна примерно 90%, а срединное значение оказалось равно 70%. В американской группе у 95 из 100 врачей вероятность оказалась равна примерно 75%.

Подобная же ситуация складывается и с проверкой спортсменов на допинг. Цифры, на которые часто ссылаются, на самом деле не соответствуют действительности, являясь относительным числом ложно положительных заключений. И дают искаженное представление о вероятности того, что спортсмен виноват в приеме допинга. Например, Мэри Дэкер Слэни, бегунья мирового класса и чемпионка 1983 г. в забегах на 1 500 и 3 000 м, пыталась снова вернуться в спорт, когда на отборочных соревнованиях в Атланте в 1996 г. ее обвинили в приеме допинга — вещество попало в организм при употреблении тестостерона. После всевозможных обсуждений ассоциация (с 2001 г. официально именуемая Международной ассоциацией легкоатлетических федераций) вынесла решение: Слэни «была виновна в злоупотреблениях, связанных с приемом допинга», которое по сути дела поставило крест на ее спортивной карьере. Согласно некоторым свидетельским показаниям в деле Слэни, «относительное число ложно положительных заключений» применительно к анализу мочи спортсменки могло доходить до 1%. Видимо, поэтому многие легко согласились со следующим: вероятность вины спортсменки равна 99%. Однако мы уже убедились в том, что это неверно. Предположим, анализы сдали 1 000 спортсменов, 1 из 10 был признан виновным, а результаты анализа, выданные признанному виновным спортсмену, представляли собой 50% вероятность злоупотребления допингом. Далее из каждой 1 000 проверенных спортсменов 100 оказались бы виновными, а результаты анализов указали бы на 50 из этих 100. Тем временем из 900 невиновных спортсменов по результатам анализов выделились бы 9 человек. Таким образом, в действительности анализы на выявление допинга означали вовсе не то, что вероятность вины спортсменки равнялась 99%, скорее всего, цифра была:

50
/
59
= 84,7%. Другими словами, если иметь в виду свидетельства, у вас должна быть такая же степень уверенности в том, что Слэни виновна, как и в том, что если она подбросит кость, число 1 не выпадет. Это, конечно же, не исключает разумные основания для сомнения, но важно вот что: соответствующие заключения, основанные на масштабной проверке (90 000 спортсменов ежегодно сдают мочу на анализы), равносильны обвинению большого числа невиновных спортсменов
{110}
.

В сфере права такую ошибку перестановки двух элементов иногда называют «ошибкой обвинения», поскольку обвинитель часто прибегает к подобному типу ошибочного довода, подводя присяжных заседателей к обвинительному приговору подозреваемого, хотя доказательства и неубедительны. Например, рассмотрим имевшее место в Британии дело Салли Кларк
{111}

. Первый ребенок Кларк умер в возрасте 11 недель. Как было сказано, смерть ребенка наступила в результате синдрома внезапной смерти ребенка грудного возраста — этот диагноз ставится, когда ребенок умирает внезапно, а вскрытие не проясняет причины смерти. Кларк снова забеременела. Ее второй ребенок прожил 8 недель, а затем умер по той же причине — синдром внезапной смерти. После этого случая Кларк была арестована: ей предъявили обвинение в том, что она задушила обоих детей. Во время судебных слушаний обвинение вызвало в качестве эксперта педиатра, Роя Мидоу, который свидетельствовал: учитывая редкость синдрома, вероятность того, что оба ребенка умерли именно по этой причине, равны 73 млн к 1. Обвинитель не предъявил никакого другого существенного свидетельства против Кларк. Могло ли такое свидетельство эксперта оказаться достаточным для вынесения обвинительного приговора? Присяжные решили, что могло, и в ноябре 1999 г. Кларк посадили.

Мидоу подсчитал: вероятность того, что ребенок умрет от синдрома внезапной смерти, равна 1 из 8 543. Свою цифру — 73 млн к 1 — он получил путем умножения этих двух факторов, по одному на каждого ребенка. Однако согласно его подсчетам выходит, что смерти детей были независимы друг от друга — то есть, ни факторы окружающей среды, ни наследственность не играли роли, увеличивавшей риск заболевания второго ребенка синдромом, от которого умер первенец. В действительности, в статье, опубликованной в «Бритиш медикал джорнел» через несколько недель после суда, вероятность того, что оба ребенка умрут в результате синдрома внезапной смерти, была определена как 2,75 млн к 1

{112}
. Но даже эта цифра слишком велика.

Чтобы понять, почему так получилось, что Салли Кларк посадили, нужно разобраться в ошибке перестановки двух элементов: мы пытаемся выяснить не вероятность того, что двое детей умрут в результате синдрома, а вероятность того, что двое умерших детей действительно умерли в результате синдрома. Спустя два года после заключения Кларк в тюрьму, Королевское общество статистиков рассмотрело ее дело и в сообщении для печати заявило: в своем решении присяжные «допустили серьезную логическую ошибку, именуемую „ошибкой обвинения“. Присяжные должны рассмотреть два разных объяснения детских смертей: от синдрома или же в результате умышленного убийства. И два смертельных исхода от синдрома, и два убийства в равной степени маловероятны, однако одно из двух все же случилось. В данном случае значение имеет относительное правдоподобие смертей…, а вовсе не то, насколько маловероятно… {объяснение смертей синдромом внезапной смерти

{113}
}». Позднее математик подсчитал относительное правдоподобие того, что семья теряет двух детей в результате синдрома внезапной смерти или же умышленного убийства. И на основании имевшихся данных заключил: вероятность того, что двое младенцев умрут в результате синдрома, в 9 раз выше, нежели то, что они станут жертвами убийства
{114}
.

Семья Кларк подала на апелляцию, а в качестве экспертных свидетелей наняла собственных специалистов-статистиков. Апелляцию они проиграли, однако не сдались и решили добиваться врачебных разъяснений относительно причины смертей. В результате открылось, что патологоанатом, привлеченный обвинением, утаил тот факт, что второй ребенок на момент смерти страдал от бактериальной инфекции, каковая и могла вызвать летальный исход. Основываясь на данном обстоятельстве, судья отменил обвинительный приговор — Салли Кларк, просидевшая в заключении почти три с половиной года, была освобождена.

Известный адвокат и профессор юридического факультета в Гарварде Алан Дершовиц также с успехом воспользовался «ошибкой обвинения» во время защиты О. Дж. Симпсона, обвинявшегося в убийстве своей бывшей жены, Николь Браун Симпсон, и ее спутника. Судебный процесс с участием Симпсона, бывшей футбольной знаменитости, был одним из самых громких событий в прессе за 1994–95 гг. У полиции имелось достаточно улик, свидетельствовавших против Симпсона. Одну перчатку, испачканную в крови, они нашли у него дома, другую обнаружили на месте преступления. Пятна крови, совпадающей по группе с кровью Николь, были найдены на перчатках, в его машине, на носках в его спальне, а также на подъездной аллее у дома и в самом доме. Более того, образцы ДНК крови, обнаруженной на месте преступления, совпали с образцами ДНК крови Симпсона. Защита была бессильна, она разве что обвинила полицейское управление Лос-Анджелеса в расизме (О. Дж. Симпсон — афро-американец), а также нечестности и усомнилась в подлинности улик.

Обвинение решило напирать на склонность Симпсона к агрессии по отношению к Николь. Первые десять дней обвинители говорили о многочисленных случаях насилия и заявляли о том, что одно уже это является достаточным основанием, чтобы подозревать Симпсона в убийстве. Как они выразились, «начинается с пощечины, а заканчивается убийством»
{115}

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

(Не)совершенная случайность

Report Page