Как не ошибаться

Как не ошибаться

Джордан Элленберг

Знает ли Facebook, что вы террорист?

Итак, корпорации, имеющие доступ к большим массивам информации, по-прежнему обладают довольно ограниченными знаниями о ваших персональных данных. Что тогда вас волнует?

И все-таки причины для беспокойства есть. Вот одна из них. Предположим, группа специалистов Facebook решает разработать метод определения, кто из пользователей социальной сети может быть причастен к террористической деятельности, направленной против Соединенных Штатов Америки. В математическом плане эта задача не сильно отличается от определения вероятности, что пользователю Netflix понравится фильм Ocean’s Thirteen («Тринадцать друзей Оушена»). Как правило, Facebook известны реальные имена пользователей и их место жительства, поэтому компания может использовать информацию из открытых источников для составления списка профилей, принадлежащих людям, уже имевшим судимости за террористические преступления или за поддержку террористических группировок. Далее начинается математика. Склонны ли террористы делать больше обновлений в день по сравнению с общей совокупностью пользователей этой социальной сети? или меньше? или этот показатель у них такой же, как и у всех остальных? Есть ли слова, которые чаще появляются в их обновлениях? Есть ли музыкальные группы, спортивные команды или продукты, к которым они особенно испытывают или не испытывают симпатию? Сложив все это вместе, вы можете присвоить каждому пользователю балл

[146]
, отражающий вашу лучшую оценку
вероятности
, что у данного пользователя есть или
будут
связи с террористическими группировками. Примерно то же самое делают в Target, когда сопоставляют данные о ваших покупках для определения вероятности, беременны вы или нет.

Однако существует одна важная особенность: беременность – явление довольно распространенное, тогда как терроризм – скорее редкое. Почти во всех случаях расчетная вероятность того, что данный пользователь станет террористом, крайне мала. Таким образом, итогом этого проекта стал бы не центр профилактики преступлений – как в фильме Minority Report («Особое мнение»), – в котором всеобъемлющий алгоритм Facebook раньше вас узнает, что вы собираетесь совершить преступление. Представьте себе нечто более непритязательное: скажем, список сотен тысяч пользователей, о которых Facebook с определенной степенью достоверности может сказать следующее: «Вероятность того, что люди из этой группы могут быть террористами или пособниками терроризма, в два раза больше, чем в случае обычных пользователей Facebook».

Что вы сделаете, если обнаружите, что человек, входящий в этот список, живет с вами по соседству? Наверное, позвоните в ФБР?
Прежде чем предпринимать этот шаг, давайте нарисуем еще одну матрицу.


Содержимое этой матрицы – около 200 миллионов пользователей сети Facebook в Соединенных Штатах. Линия между верхней и нижней частями матрицы отделяет будущих террористов (верхняя часть) от невиновных (нижняя часть). Безусловно, любая террористическая ячейка в США довольно немногочисленна. Скажем, если быть максимально подозрительными, в стране есть около 10 тысяч людей, за которыми федералам действительно стоит присматривать. Это один из каждых 20 тысяч пользователей общей пользовательской базы.

Разделение матрицы на левую и правую часть, собственно, и есть то, что делает Facebook: с левой стороны находится сотня тысяч людей, которых в Facebook считают с высокой степенью вероятности связанными с терроризмом. Давайте поверим Facebook на слово, будто их алгоритм настолько хорош, что отмеченные таким образом люди могут быть террористами с вероятностью в два раза большей, чем обычные пользователи. Следовательно, в этой группе один из 10 тысяч пользователей, или 10 человек, окажутся террористами, тогда как 99 990 – нет.

Если 10 из 10 000 будущих террористов находятся в верхней левой клетке, значит, в верхней правой находятся оставшиеся 9990 пользователей. С помощью тех же рассуждений можно сделать такой вывод: в пользовательской базе Facebook есть 199 990 000 людей, не являющихся террористами; 99 990 из них были отмечены алгоритмом и находятся в нижней левой клетке; оставшиеся 199 890 010 пользователей относятся к нижней правой клетке. Если сложить значения всех четырех клеток матрицы, получится 200 000 000 пользователей – другими словами, все пользователи Facebook в США.

Где-то в этой матрице, состоящей из четырех клеток, находится и ваш сосед по дому.
Но где именно? Он болтается где-то в левой половине матрицы, поскольку в Facebook его отнесли к числу подозреваемых, – и это все, что вы знаете.
Следует обратить внимание, что в левой половине матрицы почти нет террористов. На самом деле вероятность того, что ваш сосед невиновен, составляет 99,99 %.

В каком-то смысле это ситуация аналогична той панике, возникшей в Англии из-за противозачаточных препаратов. Включение пользователя в список Facebook в два раза увеличивает вероятность, что он террорист, что звучит ужасно. Но исходная вероятность сама по себе крайне мала, поэтому, если вы увеличите ее в два раза, она
по-прежнему
останется совсем небольшой.

Однако эту ситуацию можно интерпретировать и другим способом, который еще больше подчеркивает, насколько вероломными и сбивающими с толку могут быть рассуждения о неопределенности. Задайте себе такой вопрос: если человек на самом деле не является будущим террористом, какова вероятность, что его без всяких на то оснований включат в список Facebook?

В представленной выше матрице это означает следующее: если вы находитесь в нижней строке матрицы, какова вероятность того, что ваше место именно в левой клетке?
Это достаточно легко вычислить. В нижней половине матрицы 199 990 000 пользователей, из которых 99 990 находятся слева. Следовательно, вероятность того, что алгоритм Facebook отметит невиновного человека как потенциального террориста, составляет:

99 990/199 990 000,

или около 0,05 %.

Все верно: невиновный человек имеет всего один шанс из двух тысяч, что Facebook неправильно отнесет его к числу потенциальных террористов!
Какие чувства вы испытываете по отношению к своему соседу
теперь
?
Ход рассуждений, лежащий в основе
p

-значения, дает нам четкий ориентир. Нулевая гипотеза состоит в том, что ваш сосед не террорист. В соответствии с этой гипотезой (другими словами, исходя из невиновности соседа) вероятность того, что он появится в «красном списке» Facebook, составляет всего 0,05 %, гораздо ниже порога статистической значимости 1 из 20. Другими словами, согласно правилам, которым в подавляющем большинстве случаев подчиняется современная наука, вы имеете все основания отбросить эту нулевую гипотезу и объявить своего соседа террористом.

Вот только вероятность того, что он не террорист, равна 99,99 %.
Тем не менее почти нет шансов на то, что алгоритм отметит невиновного человека как террориста. В то же время почти все люди, которых выделяет алгоритм, невиновны. Похоже на парадокс, но на самом деле это не так. Таково положение дел. Если вы сделаете глубокий вдох и внимательно присмотритесь к матрице, вы все поймете.

Суть вот в чем. На самом деле существуют два вопроса, которые вы можете задать. На первый взгляд они кажутся одинаковыми, но это не так.
Вопрос 1:
какова вероятность, что человек попадет в список Facebook, при условии что он не террорист?
Вопрос 2:
какова вероятность, что человек не террорист, при условии что он входит в список Facebook?

Эти вопросы отличаются друг от друга, поскольку на них даются разные ответы. По-настоящему разные ответы. Мы уже видели, что ответ на первый вопрос – около 1 из 2000, тогда как ответ на второй вопрос – 99,99 %. И именно ответ на второй вопрос вам нужен.
Величины, о которых идет речь в этих вопросах, обозначаются термином «условные вероятности»: «вероятность того, что имеет место
Х
, при условии
Y
». А мы ломаем здесь голову над тем, что вероятность
Х
 при условии
Y

 – это не то же самое, что вероятность
Y
 при условии
Х
.
Если сказанное кажется вам знакомым, так и должно быть: это именно та проблема, с которой мы столкнулись, когда рассматривали доказательство от маловероятного;
p
-значение – это ответ на вопрос:
«Вероятность, что наблюдаемый результат эксперимента будет иметь место при условии, что нулевая гипотеза правильна».
Однако нам
нужно
знать другую условную вероятность:

«Вероятность, что нулевая гипотеза правильна при условии наблюдения определенного результата эксперимента».

Опасность возникает именно в случае, когда мы путаем вторую величину с первой. И такая путаница имеет место повсюду, не только в научных исследованиях. Когда окружной прокурор наклоняется к жюри присяжных и объявляет «Есть один шанс из пяти миллионов, повторяю, один шанс из пяти миллионов, что ДНК невиновного человека совпадет с ДНК, обнаруженной на месте преступления», он отвечает на первый вопрос: «Какова вероятность того, что невиновный человек выглядит виновным?» Однако работа жюри присяжных в том, чтобы найти ответ на второй вопрос: «Какова вероятность, что на первый взгляд виновный подсудимый невиновен?» На этот вопрос окружной прокурор уже не поможет им ответить

[147]
.
* * *
Пример с Facebook и террористами объясняет, почему плохие алгоритмы должны вызывать не только такое же беспокойство, что и хорошие, но и большее. Мало приятного в том, что Target знает о вашей беременности. Гораздо хуже, если вы не террорист, но Facebook считает вас таковым.

Может быть, вы думаете, что Facebook никогда не станет составлять список потенциальных террористов (налоговых мошенников, педофилов) или делать такой список общедоступным, в случае если он все-таки будет создан. Зачем им это надо? На чем здесь можно заработать деньги? Может, так и есть. Однако Агентство национальной безопасности США также собирает данные о жителях Америки, являются ли они пользователями Facebook или нет. Происходит нечто вроде составления черного списка – если только вы не думаете, что в АНБ регистрируют метаданные о всех наших телефонных звонках лишь ради того, чтобы давать операторам мобильной связи полезные советы, где им следует построить дополнительные сигнальные вышки. Большие данные – не магическая сила; они не говорят федералам, кто террорист, а кто нет. Но, чтобы составлять длинные списки людей, по тем или иным причинам отмеченных красным флажком, отнесенных к группе повышенного риска или обозначенных как «подозреваемые», – никакого волшебства не нужно. Большинство людей, включенных в такие списки, не имеют никакого отношения к терроризму. Вы уверены, что не принадлежите к их числу?

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Report Page