Как не ошибаться

Как не ошибаться

Джордан Элленберг

Глава пятнадцатая
Эллипс Гальтона

Гальтон показал, что регрессия к среднему значению имеет место каждый раз, когда изучаемый феномен находится под влиянием игры случайных факторов. Но насколько сильны эти факторы по сравнению с влиянием наследственности?
Чтобы понять, о чем говорят данные, Гальтону пришлось представить их в графическом виде, более наглядном, чем столбец чисел. Впоследствии он вспоминал:

Я начал с линованного листа бумаги, разграфленного поперек, с горизонтальной шкалой, соответствующей росту сыновей, и вертикальной шкалой для обозначения роста отцов. Кроме того, я сделал отметки карандашом в тех местах, которые соответствовали росту каждого сына и росту его отца
{219}
.
Подобный метод визуализации данных берет свое начало в аналитической геометрии Рене Декарта, предлагающего нам рассматривать точки на плоскости как пары чисел (координата
х
 и координата
y

). Таким образом, аналитическая геометрия объединила алгебру и геометрию прочными объятиями, в которые они заключены с тех пор навсегда.
Каждой паре «отец – сын» соответствует пара чисел, а именно – рост отца, затем рост сына. Рост моего отца 185 сантиметров, у меня такой же рост; следовательно, если информация о нашем росте входила бы в набор данных Гальтона, мы были бы записаны как (185, 185). И Гальтон зафиксировал бы наше существование, отметив на своем листе бумаги точку с координатами
x

 = 185 и 
y
 = 185. Для каждого сына и отца в огромном массиве данных Гальтона необходимо было сделать отметку на бумаге, и это продолжалось до тех пор, пока на листе не появлялось множество точек, отображающих весь диапазон значений роста. Гальтон изобрел тип графика, который мы называем теперь
диаграммой разброса
[258]
{220}
.

Диаграммы разброса особенно хорошо раскрывают взаимосвязи между двумя переменными. Загляните в любой современный научный журнал – почти в каждом найдется целый ряд таких диаграмм. В конце XIX столетия наступил период расцвета визуализации данных. Шарль Минар в 1869 году составил знаменитую диаграмму, отображающую резкое сокращение численности армии Наполеона во время похода в Россию и последующего отступления (эту диаграмму часто называют величайшим графиком всех времен). Диаграмма Минара, в свою очередь, была преемником диаграммы Флоренс Найтингейл «петушиный гребень»

[259]
, на которой со всей наглядностью было показано, что в ходе Крымской войны большинство британских солдат погибли от различных инфекционных заболеваний, а не от рук русских.


Диаграмма «петушиный гребень» и диаграмма разброса согласуются с нашими когнитивными способностями: мозг человека плохо воспринимает столбцы чисел, но прекрасно справляется с анализом закономерностей и данных, представленных в двумерном поле зрения.

В некоторых случаях это не вызывает никаких трудностей. Предположим, например, что каждый сын и отец имеют
одинаковый
рост, как у меня с моим отцом. Это та самая ситуация, когда случай не играет никакой роли
[260]
, а ваш рост целиком и полностью зависит от унаследованных от отца качеств. В таком случае все точки нашей диаграммы разброса будут иметь одинаковые координаты
x
 и 
y
; другими словами, они будут сосредоточены в непосредственной близости от диагональной линии, уравнение которой
x

 =
y
:


Обратите внимание, что плотность точек больше у середины и меньше у концов графика; это означает, что количество мужчин ростом 176 сантиметров больше количества мужчин ростом 185 сантиметров и 163 сантиметра.
Что происходит в противоположном случае, когда рост сыновей никак не связан с ростом отцов? При таком варианте диаграмма разброса выглядела бы так:


На этом рисунке, в отличие от предыдущего, нет смещения точек в сторону диагонали. Если вы обратите внимание только на сыновей, у отцов которых рост 185 сантиметров (вертикальный срез в правой части диаграммы разброса), точки, соответствующие росту сыновей, по-прежнему сосредоточены в области 176 сантиметров. Будем говорить, что
условное математическое ожидание
роста сына (другими словами, каким в среднем будет рост сына при условии, что у отца рост 185 сантиметров) совпадает с 

безусловным математическим ожиданием
(средний рост сыновей, рассчитанный без учета роста отца). Именно так выглядела бы диаграмма Гальтона, если не было бы наследственных особенностей, оказывающих влияние на рост. Это регрессия к среднему значению в самом выраженном виде: сыновья высоких отцов возвращаются к среднему росту, оказываясь в итоге не выше сыновей низкорослых отцов.

Однако диаграмма разброса Гальтона не похожа ни на один из этих крайних случаев. Напротив, она представляет собой нечто среднее между ними:


Что представляет собой на этом графике средний рост сына отца, рост которого 185 сантиметров? Я нарисовал вертикальный срез, чтобы показать, какие точки на диаграмме разброса соответствуют этим парам «отец – сын».


Как видите, в срезе «отец ростом 185 сантиметров» концентрация точек под диагональю больше, чем над ней, а значит, сыновья в среднем ниже ростом, чем их отцы. С другой стороны, они явно выше 175 сантиметров, роста обычного мужчины. В массиве данных, которые я отобразил на этом графике, средний рост этих сыновей составляет около 183 сантиметров, то есть они выше среднего роста, но не такие высокие, как отцы. Вы смотрите сейчас на 
изображение
регрессии к среднему значению.

Гальтон сразу заметил, что его диаграммы разброса, полученные как результат взаимодействия между наследственностью и случаем, имеют далеко не случайную геометрическую структуру. Создавалось впечатление, что все они в той или иной мере заключены в эллипс с центром в точке, в которой отцы и дети имеют одинаковый средний рост.

Эту наклонную эллиптическую форму можно обнаружить даже в первичных данных, представленных в таблице из работы Гальтона «Регрессия к посредственности на примере наследуемого роста», опубликованной в 1886 году: обратите внимание на фигуру, которую образуют отличные от нуля числа в этой таблице. Кроме того, из таблицы становится ясно, что я не все рассказал о совокупности данных Гальтона. В частности, его ось
y

 – это не «рост отца», а «среднее между ростом отца и ростом матери, умноженном на 1,08»
[261]
(что Гальтон называет «средним родителем»).


Примечание.

При расчете медиан учитывались средние значения показателей в соответствующих клетках таблицы. В заголовках столбцов указаны числа 62,2, 63,2 и т. д., поскольку данные наблюдений неравномерно распределены между показателями 62 и 63, 63 и 64 и т. д. с сильным смещением в сторону целых дюймов. Тщательно все взвесив, я пришел к выводу, что заголовки столбцов в предложенном виде лучше всего удовлетворяют заданным условиям. В случае роста средних родителей такая неравномерность не была очевидной.

На самом деле Гальтон сделал еще кое-что: он тщательно начертил на своей диаграмме разброса кривые линии, вдоль которых плотность точек была примерно одинаковой. Подобные кривые называются «изоплеты» – и вам они известны, разве что не под таким именем. Если мы возьмем карту США и проведем на ней линию, соединяющую места, в которых сегодня температура 25 градусов, 10 градусов или любая другая фиксированная температура, получатся знакомые кривые синоптической карты, которые называются «изотермы». Настоящая синоптическая карта содержит также «изобары», соединяющие места с одинаковым атмосферным давлением, или «изонефы», соединяющие места с одинаковым облачным покровом. Если измерять высоту, а не температуру, то изоплеты представляют собой контурные линии, называющиеся «изогипсы», которые можно найти на топографических картах. Представленная ниже карта изоплет показывает среднегодовое количество снежных бурь на континентальной части территории США

{221}
:


Изоплету изобрел не Гальтон. Первую опубликованную карту изоплет создал в 1701 году Эдмунд Галлей, британский Королевский астроном, который объяснял королю, как правильно оценивать аннуитеты
[262]

. Навигаторы уже знали, что магнитный северный меридиан не всегда совпадает с истинным северным меридианом. Понимание того, где и в какой степени они не совпадают, играло важнейшую роль для успешных путешествий по океану. Кривые на карте Галлея, получившие название «изогоны», показывали мореплавателям области одинаковых расхождений между магнитным и истинным северным меридианом
{222}

. Эти данные были основаны на измерениях, сделанных Галлеем на борту корабля Paramore, который несколько раз пересекал Атлантический океан во главе с Галлеем. (Этот человек знал, чем себя занять между визитами комет.)

Гальтон обнаружил поразительную регулярность: все его изоплеты представляли собой эллипсы, каждый из которых был заключен в следующий, причем у всех эллипсов был один центр. Это напоминало контурную карту горы идеальной эллиптической формы с вершиной, которой соответствовали два значения роста, чаще всего встречавшиеся в выборке Гальтона: средний рост родителей и детей. Эта гора представляет собой не что иное, как трехмерную версию колоколообразной кривой под названием «шлем жандарма», которую изучал Абрахам де Муавр; сегодня мы используем термин «двумерное нормальное распределение».



Когда рост сыновей совершенно не зависит от роста родителей (как на второй диаграмме разброса), эллипсы Гальтона представляют собой круги, данные на диаграмме также образуют круг. Когда рост сыновей полностью зависит от наследственности, а элемент случайности отсутствует (как на первой диаграмме разброса), данные расположены вдоль прямой линии, что можно представить себе как самый вытянутый эллипс. Между этими двумя крайними случаями мы имеем эллипсы различной толщины, которую специалисты по классической геометрии называют «эксцентриситетом» эллипса. Эксцентриситет отображает степень, в которой рост отца определяет рост сына. Высокий эксцентриситет означает, что имеет место сильная наследственность и слабая регрессия к среднему значению; низкий эксцентриситет означает противоположное: ситуацию контролирует регрессия к среднему. Гальтон называл этот показатель «корреляцией» – мы используем его до сих пор. Если эллипс Гальтона почти круглый, корреляция близка к 0; если эллипс сильно вытянут в направлении с северо-востока на юго-запад, корреляция близка к 1. С помощью эксцентриситета (геометрической величины, возраст которой совпадает с возрастом работы Аполлония Пергского в III столетии до нашей эры). Гальтон нашел способ измерять связь между двумя переменными и благодаря этому решил важнейшую задачу биологии XIX столетия: задачу количественного анализа наследственности.

Возможно, здоровый скептицизм заставляет вас задать вопрос: что если данные на диаграмме разброса не образуют эллипс? Что тогда? На этот вопрос есть прагматический ответ: на практике диаграммы разброса реальных массивов данных во многих случаях действительно образуют фигуры, близкие к эллипсам, – не всегда, но достаточно часто, чтобы сделать этот метод широко применимым. Вот как выглядит диаграмма разброса, если отобразить на ней долю избирателей, проголосовавших за Джона Керри в 2004 году, в сравнении с долей избирателей, проголосовавших за Барака Обаму в 2008 году. Каждая точка соответствует одному избирательному округу.



Эллипс здесь налицо, причем очень вытянутый, а это значит, что существует высокая степень корреляции между долей избирателей, проголосовавших за Керри, и долей избирателей, проголосовавших за Обаму. Очевидно, что б
о
льшая часть графика расположена над диагональю; это говорит о том, что в целом Обама получил больше голосов, чем Керри.
На следующем графике представлены данные о ежедневных изменениях курсов акций Google и General Electric (GE) за несколько лет.


Следующим будет рисунок, который мы уже видели, – график взаимозависимости между стоимостью обучения в нескольких университетах штата Северная Каролина и средним баллом SAT.


Далее представлены 50 штатов США, расположенные на диаграмме разброса по среднему доходу и доле избирателей, проголосовавших за Джорджа Буша во время президентских выборов 2004 года
{223}

. На этой диаграмме богатые либеральные штаты, такие как Коннектикут, расположены в нижней правой части диаграммы, а поддерживающие республиканцев штаты с более скромными доходами, такие как Айдахо, – в верхней левой части.


Эти данные взяты из самых разных источников, однако все четыре диаграммы разброса имеют примерно такую же эллиптическую форму, что и диаграмма роста родителей и детей. В первых трех случаях имеет место положительная корреляция: увеличение одной переменной связано с увеличением другой; при этом эллипс вытянут с северо-востока на юго-запад. На последнем графике отображена отрицательная корреляция: в целом более богатые штаты больше поддерживают демократов, а эллипс вытянут с северо-запада на юго-восток.

Все материалы, размещенные в боте и канале, получены из открытых источников сети Интернет, либо присланы пользователями  бота. 
Все права на тексты книг принадлежат их авторам и владельцам. Тексты книг предоставлены исключительно для ознакомления. Администрация бота не несет ответственности за материалы, расположенные здесь

Report Page