Смещение Берксона
Математическая эссенцияСмещение Берксона — это пример ещё одного статистического парадокса, родственного парадоксу Симпсона и феномену Уилла Роджерса. Он заключается в неверном выводе о зависимости событий А и В, если мы наблюдаем только те исходы, при которых произошло некоторое третье событие С — его иногда называют коллайдером или скрытой (латентной) переменной.
Пусть в выпускном классе школы учится 100 школьников, из них 20 имеют выдающиеся способности в математике и 20 — в филологии. Причём события «случайно выбранный школьник одарён в математике» и «случайно выбранный школьник одарён в филологии» являются независимыми. Это означает, что ровно 4 ученика талантливы сразу по двум направлениям — математике и филологии. В самом деле, если среди всех школьников 1/5 часть талантливы в математике, то для того, чтобы эти события были независимы, среди одарённых в филологии школьников также должна быть 1/5 часть математических талантов, т.е. талантливых математиков-филологов будет (1/5) × 20 = 4.
Посмотрим теперь на эту ситуацию с точки зрения приёмной комиссии университета, в который, предположим, хотят поступить талантливые в математике и филологии ученики школы. Всего таких учеников 36: 20 талантливых математиков, 20 талантливых филологов, из них 4 ученика находятся и в той, и в другой двадцатке.
С точки зрения членов приёмной комиссии, вероятность того, что абитуриент является талантливым математиком составляет 20/36 = 5/9. Вероятность же того, что абитуриент талантлив в математике при условии, что он талантлив в филологии, составляет всё ту же 1/5. Получается, на взгляд членов приёмной комиссии, события зависимы — у них есть обратная связь: среди талантливых филологов реже встречаются талантливые математики, чем среди всех абитуриентов.
Мы получим более наглядную картинку, если посмотрим на ситуацию с позиции какого-то распределения талантов учеников по двум выделенным направлениям — математика и филология. Будем считать теперь, что университет заинтересован в поступлении не только самых одарённых по двум направлениям 36 выпускников, но всех, имеющих достаточно высокий суммарный балл по этим предметам.

По осям координат отложим успехи учеников в филологии и математике в каких-нибудь условных единицах (например, баллах, полученных на ЕГЭ). В распределении по всем ученикам не прослеживается никакой взаимосвязи между наличием/отсутствием таланта в этих направлениях.
Но теперь ученики, имеющие суммарные баллы ниже порогового значения, не рассматриваются университетом в качестве абитуриентов (синие точки на графике). Также, возможно, что найдутся ученики, достигшие очень высоких успехов по двум направлениям, которые сами не захотят поступать в этот провинциальный университет и уедут в столицу (зелёные точки). Останутся абитуриенты нашего университета, которым соответствуют на графике красные точки, заключённые внутри полосы.
А для этих точек уже чётко прослеживается отрицательная связь между способностями в «физике» и «лирике»!
Этот эффект наблюдают врачи, биологи, другие специалисты. Все они имеют дело с искажённой выборкой данных. Так, врач сравнивает частоту заболеваний среди тех, кто к нему обращается, т. е. среди тех, кто чем-то болен.
Между стажем курения и степенью тяжести протекания лёгочных заболеваний имеется, скорее всего, положительная связь (а может быть, нет никакой связи). Но рассматривая только тех, кто попал в больницу, мы отсекаем тех, кто туда не попал — кто болеет, но не в тяжёлой форме. А также, возможно, и тех, кто из-за совмещения факторов долгого курения и тяжести болезни вообще не доехал до больницы или задержался там ненадолго… В результате срабатывает смещение Берксона: оказывается, что для больничной выборки зависимость степени тяжести болезни от продолжительности курения носит отрицательный характер.
Причина таких неожиданных выводов состоит в том, что интуитивно мы невольно смешиваем понятия: результат экзамена вообще и результат экзамена среди абитуриентов университета; степень тяжести болезни вообще и степень тяжести болезни среди пациентов больницы.
Ещё пример. Казалось бы, чем больше в пожаре задействовано пожарных, тем должно быть меньше раненых. Однако реальная статистика в агрегированных данных показывает прямо противоположный результат. Парадокс раскрывается, если рассмотреть скрытую переменную «степень тяжести пожара»: более серьёзные пожары приводят к большему количеству травм и требуют большего количества пожарных.
Почему по хорошим книгам снимают плохие фильмы? Почему среди умных людей мало порядочных? Если подобные вопросы посещали вас, то хорошая новость от Берксона состоит в том, что на самом деле это не совсем так — просто мы не всегда ищем там, где нужно.
Приходилось ли вам сталкиваться с поспешными выводами о подобных зависимостях и если да, то в каких ситуациях?