Как не ошибаться

Джордан Элленберг

Глава десятая
Ты там есть, бог? Это я, байесовский вывод

Многие опасаются эпохи больших данных. В какой-то степени страшит будущее: а вдруг начнут воплощаться пока еще туманные перспективы, что алгоритмы, обеспеченные достаточным объемом данных, начнут справляться с задачей логического вывода лучше самого человека. Людям внушает страх все сверхъестественное: существа, умеющие трансформироваться; какие-то сущности, восстающие из мертвых; создания, способные приходить к таким умозаключениям, которые нам и не снились. Было по-настоящему жутко, когда бездушная статистическая модель, внедренная по программе маркетингового анализа (Guest Marketing Analytics) в сети розничных магазинов Target, учитывая данные о покупках, пришла к правильному умозаключению, что одна из покупательниц (прошу прощения,

гостей
) – девушка-подросток из Миннесоты – беременна
{136}

. На основании какой-то загадочной формулы, граничащей с колдовством, было проанализировано увеличение доли определенных покупок: лосьона без запаха, витаминов и ватных шариков. И вот результат: компания Target начала отправлять своей покупательнице купоны на товары для новорожденных – к большому изумлению отца девушки, который, будучи всего лишь человеческим существом, обладал довольно убогими дедуктивными способностями и все еще оставался в неведении. Страшно даже подумать, что мы живем в мире, где Google, Facebook, ваш мобильник и, черт побери, даже Target знают о вас больше, чем собственные родители.

Но, может быть, стоило бы меньше бояться внушающих ужас сверхмощных алгоритмов и больше тревожиться о плохих.
Начнем с того, что плохой алгоритм может оказаться самым лучшим. Алгоритмы, поддерживающие работу компаний в Кремниевой долине, с каждым годом становятся все более изощренными, а вводимые в них данные – все более объемными и полезными. Согласно модели будущего, Google должен
знать

вас: его центральное хранилище данных, обрабатывая миллионы микронаблюдений («Сколько времени он колебался, прежде чем щелкнуть на этом…», «Как долго его очки Google Glass задержались на том…» и так далее), начнет предвосхищать ваши поступки, предпочтения и даже мечты, особенно что касается покупок, которые вы захотите сделать, или вас убедят, что вы этого хотите.

Именно так все может быть! Но может и не быть. Существует множество математических задач, в которых обеспечение большего количества данных повышает точность полученного результата довольно предсказуемым способом. Чтобы предсказать траекторию движения астероида, необходимо измерить скорость его движения и определить местоположение, а также оценить гравитационное воздействие его астрономических соседей. Чем больше связанных с астероидом параметров вы сможете измерить, тем более точную траекторию его движения вам удастся составить.

Однако некоторые задачи похожи скорее на прогноз погоды. Это еще одна ситуация, в которой важнейшую роль играет наличие большого объема подробных данных, а также вычислительных ресурсов для их быстрой обработки. В 1950 году первой вычислительной машине ENIAC понадобилось двадцать четыре часа, чтобы создать имитационную модель погоды на сутки – это стало поразительным достижением в области компьютерных вычислений космической эры. В 2008 году такие вычисления были выполнены на мобильном телефоне Nokia 6300 менее чем за секунду

{137}
. В наше время прогнозы погоды не просто составляются быстрее – они намного точнее и охватывают более продолжительный период. Типичный прогноз погоды на пять дней в 2010 году был таким же точным, как прогноз на три дня в 1986 году
{138}
.

Хотелось бы думать, что прогнозы будут становиться все лучше и лучше по мере усиления нашей способности собирать данные. Не сможем ли мы в конечном счете реализовать в высшей степени точную имитационную модель атмосферы всей планеты в компьютерном парке где-нибудь под штаб-квартирой сети The Weather Channel? В таком случае, чтобы узнать погоду в следующем месяце, вам понадобится просто выполнить имитационное моделирование, охватывающее немного более длительный период.

Все это заманчиво, но невозможно. Энергия в атмосфере циркулирует очень быстро, меняя масштаб от крохотного до глобального; при этом даже малейшие изменения в одном месте и времени могут повлечь за собой совершенно другие последствия в другом месте через несколько дней. С формальной точки зрения, погода
хаотична

. Именно в процессе численного изучения погоды Эдвард Лоренц открыл математическую концепцию хаоса. «Один метеоролог отметил, что, если теория была бы правильной, одного взмаха крыльев чайки было бы достаточно, для того чтобы навсегда изменить погодные условия. Это противоречие еще не решено, но самые последние данные как будто говорят в пользу чаек», – писал он
{139}
.

Существует жесткое ограничение в отношении того, на какой период мы можем прогнозировать погоду, сколько бы данных нам ни удалось собрать. Лоренц считал, что этот период должен быть не более двух недель, и усилия метеорологов всего мира до сих пор не дали нам оснований ставить этот предел под сомнение
{140}
.

К чему ближе человеческое поведение – к астероиду или погоде? Безусловно, все зависит от того, о каком аспекте человеческого поведения идет речь. Как минимум в одном смысле поведение человека прогнозировать даже труднее, чем погоду. У нас есть очень хорошая математическая модель для погоды, позволяющая нам составлять более точные прогнозы хотя бы на краткосрочный период при наличии доступа к большему объему данных – даже если потом присущий этой системе хаос неизбежно берет верх. В случае человеческого поведения у нас такой модели нет и, видимо, никогда не будет. Это делает задачу прогнозирования гораздо более трудной.

Онлайновая компания Netflix, работающая в области индустрии развлечений, в 2006 году организовала конкурс с главным призом в один миллион долларов, чтобы определить, сможет ли кто-нибудь в мире написать алгоритм, который будет справляться с задачей по рекомендациям фильмов клиентам лучше, чем алгоритм самой компании
{141}

. Казалось, финишная черта находится не так уж далеко от старта: победителем должна была стать первая программа, которая на 10 % лучше справится с задачей рекомендации фильмов клиентам, чем программа Netflix.
Участникам конкурса предоставили огромное количество данных о почти полумиллионе пользователей Netflix и около миллиона анонимных мнений, оценивающих 17 700 фильмов. Задача состояла в том, чтобы предсказать, как пользователи оценят фильмы, которых еще
не видели

. Есть данные – много данных, имеющих непосредственное отношение к поведению, – и вы пытаетесь прогнозировать это поведение. Очень сложная задача. В итоге прошло целых три года, прежде чем кто-то смог превысить 10 %-ную планку, причем произошло это, лишь когда несколько групп, принимавших участие в конкурсе, объединились и создали гибрид «почти пригодных» алгоритмов. Они надеялись, что это мощное алгоритмическое чудо выведет их на финишную прямую. Netflix так и не использовала победивший алгоритм в своем бизнесе, поскольку к моменту завершения конкурса компания уже переходила от рассылки DVD-дисков по почте к трансляции фильмов методом потокового вещания, что делало неиспользованные рекомендации совсем бесполезными

{142}
. Наверняка кто-то из вас пользовался услугами Netflix (или Amazon, или Facebook, или любого сайта, пытающегося навязать вам выбор продуктов на основании собранных о вас данных), поэтому вы и без меня знаете, насколько неудачны и до смешного нелепы их рекомендации. Но, по мере того как ваш профиль начнет пополняться все б
о
льшим количеством данных, их советы будут становиться более уместными. А может быть, и не будут.

С точки зрения таких компаний, нет ничего плохого в том, что они занимаются сбором и уточнением ваших данных. Конечно, для Target было бы удобнее всего, если они могли бы точно узнавать о беременности клиенток, отслеживая данные на их карточках постоянного покупателя. Но они этого не могут и потому не знают, беременны вы или нет. Тем не менее даже догадки о вашей беременности принесли бы компании пользу и дали бы возможность делать свои прогнозы на 10 % точнее, чем сейчас. То же самое касается Google. Компании нет необходимости точно знать, какой продукт вы хотите приобрести; все, что ей нужно, – иметь чуть более точное представление о ваших предпочтениях, чем конкурирующие фирмы. Как правило, компании работают с невысокой рентабельностью. Для вас нет ничего страшного, прогнозируете ли вы свое поведение точнее хотя бы процентов на десять или нет, но для компаний 10 % – это довольно большие деньги. Во время проведения конкурса я спросил вице-президента Netflix Джима Беннетта, который занимался вопросами рекомендаций, почему компания предложила столь большой приз. Он ответил, что мне следовало бы спросить, почему приз такой маленький. На первый взгляд небольшое повышение эффективности рекомендаций на 10 % позволило бы возместить этот миллион долларов за меньшее время, чем то, которое понадобилось для создания еще одного фильма The Fast and the Furious («Форсаж»).

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Как не ошибаться

Глава десятаяТы там есть, бог? Это я, байесовский вывод

Report Page

Глава десятая
Ты там есть, бог? Это я, байесовский вывод