Парадокс Симпсона

Парадокс Симпсона

Математическая эссенция


Данные всех стран, не объединяйтесь!

В одной школьной параллели учатся два класса по 30 человек — А и Б. Классы разделены на две непересекающиеся группы (необязательно одинаковые по размеру) для изучения иностранного языка — английского и китайского. Доля мальчиков в английской группе класса А больше чем в английской группе класса Б. И доля мальчиков в китайской группе класса А больше чем в китайской группе класса Б.

Может ли доля мальчиков во всём классе А оказаться меньше, чем во всём классе Б?

Ответ на этот вопрос контринтуитивен: да, такое может быть. Подобное загадочное явление было описано Эдвардом Симпсоном в 1951 году и получило название «парадокс Симпсона».

Приведём пример. Пусть в классе А: в английской группе 6 мальчиков и 2 девочки, в китайской группе 8 мальчиков и 14 девочек; а в классе Б: в английской группе 12 мальчиков и 6 девочек, в китайской — 4 мальчика и 8 девочек.

Тогда доля мальчиков в английской группе класса А больше доли в английской группе класса Б: 6/8 > 12/18.

И доля мальчиков в китайской группе класса А больше их доли в китайской группе класса Б: 8/22 > 4/12.

Но доля мальчиков во всём классе А меньше их доли во всём классе Б: 14/30 < 16/30.

Для объяснения парадокса запишем все соотношения в общем виде. Пусть mₐ и Mₐ — количества мальчиков в английских группах в классах А и Б соответственно; mₖ и Mₖ — количества мальчиков в китайских группах этих классов; для девочек будем использовать обозначения соответственно: dₐ и Dₐ, dₖ и Dₖ.

Тогда по условию

что можно переписать в виде

После объединения групп получается неравенство с противоположным знаком:

Для дробей а / с и b / d величину (a + b) / (c + d) называют медиантой (или, в шутку, суммой первоклассника).

Легко показать, что медианта заключена между дробями: если

а / с < b / d , то 

Суть парадокса Симпсона состоит в том, что несмотря на то, что каждая дробь первой пары соответственно больше дроби второй пары, медианта первой пары дробей может оказаться меньше медианты второй пары.

Представить себе, почему так может произойти, помогает графическая интерпретация медианты.

Изобразим дроби в виде вектора, первая и вторая координаты которого представляют собой соответственно знаменатель и числитель.

Тогда медианта двух векторов (b; a) и (d; c) — это сумма этих векторов
(b + d; a + с), т.е. вектор диагонали натянутого на них параллелограмма.

Не составляет большого труда построить такие два параллелограмма, чтобы две стороны первого имели больший наклон к оси абсцисс, чем соответствующие им две стороны второго, а исходящая из их общей вершины диагональ первого параллелограмма имела меньший наклон, чем соответствующая диагональ второго.

Парадокс Симпсона часто встречается при анализе статистических данных в социальных науках, экономике, медицине и проч. Он может приводить к совершенно ошибочным выводам в исследованиях. Известны многочисленные случаи, когда, например, анализ данных по всей совокупности приводил к заключению о наличии дискриминации женщин при приёме на работу в некоторую организацию, в то время как анализ тех же данных, но разделённых по конкретным специальностям, приводил к прямо противоположным выводам. При этом даже не всегда бывает понятно, какие данные — разделённые или агрегированные — представляют большую ценность.

Парадокс Симпсона демонстрирует важность продуманной интерпретации данных относительно реального мира, а также показывает опасность упрощения более сложной картины в попытках решить все проблемы с единой точки зрения на данные. Необходимо всегда иметь в виду, что статистические характеристики, которые мы видим, — это не вся картина. Если рассматривать процесс с позиции генерации данных и причины их появления, то можно увидеть совсем другую картину и найти другие влияющие факторы.

В заключение приведём несколько забавных примеров, показывающих, как кластерный анализ может изменить картину по сравнению с анализом всей генеральной совокупности.

Установлена отрицательная зависимость между дозировкой лекарства и вероятностью выздоровления как у мужчин, так и у женщин. Однако при объединении их в одну группу наблюдается положительная связь.


Для каждого отдельного человека имеется отрицательная зависимость показателя интеллекта от количества употреблённого алкоголя. Однако на уровне группы корреляция положительна.


Между степенью возбуждения и качеством игры теннисистов не прослеживается никакой связи (А).
В зависимости от соотношения количества победных бросков и ошибок психологами было выделено два типа игроков (которые прежде оставались незамеченными): "агрессивные" и "защитные"; по отношению к этим двум типам игроков между возбуждением и качеством игры выявлено два противоположных отношения (В).


Связь между употреблением кофе и невротизмом во всей популяции положительна. В то же время у мужской половины населения она отрицательна.










Report Page