Медиана и среднее
Мария ЧерниговскаяЗачем нужны медиана и среднее?
Медиана и среднее — это меры центральной тенденции, то есть такая величина, которая описывает большую и разнообразную выборку одним “центральным” значением. “Центр” выборки можно определить различными способами и от этого получить разные центральные значения. Есть три основные меры центральной тенденции — медиана (median), среднее (mean) и мода (mode), но на практике чаще всего встречаются именно медиана и среднее.
Как рассчитать медиану и среднее?
Чтобы рассчитать среднее нужно сложить все элементы выборки и поделить на их количество.
Чтобы рассчитать медиану нужно сделать два шага — (1) упорядочить элементы выборки по возрастанию и (2) найти элемент выборки, который находится в центре упорядоченной выборки — это и есть медиана. Если в выборке четное количество элементов, то центральных элемента два и медиана определяется как среднее арифметическое этих двух элементов. Таким образом, медиана делит выборку пополам — половина значений выборки больше медианы, а половина значений выборки меньше медианы.
Пример: Предположим, ваша зарплата за последние полгода была 40к, 50к, 20к, 40к, 100к, 50к. Мы хотим вычислить медианную и среднюю зарплату за этот период.
Считаем среднюю зарплату:
(40+50+20+40+100+50)/6 = 300/6 = 50к
Считаем медианную зарплату:
(1) упорядочиваем элементы выборки по возрастанию: 20, 40, 40, 50, 50, 100
(2) ищем средний элемент (тут их два, так как четное кол-во элементов выборки): 20, 40, 40, 50, 50, 100, а значит медиана будет 40+50/2 = 45к.
Если бы мы искали медианную зарплату за 5 месяцев (40к, 50к, 20к, 40к, 100к), то медиана была бы 40к (20, 40, 40, 50, 100)
Что значит “медиана устойчива к выбросам”?
Вернемся к примеру с зарплатой и предположим, что в один месяц заработали не 100к, а 1000к, то есть доход был 40к, 50к, 20к, 40к, 1000к, 50к. Как это отразится на средней и медианной зарплате за полгода?
Средняя зарплата:
(40+50+20+40+1000+50)/6 = 1200/6 = 200к
Медианная зарплата:
(1) упорядочиваем: 20, 40, 40, 50, 50, 1000
(2) находим центр: 20, 40, 40, 50, 50, 1000 — медиана (40+50)/2 = 45
Мы изменили всего один элемент выборки на аномально большой (т.е. выброс) и после этого среднее увеличилось с 50к до 200к, а медиана осталось прежней — 45к. Это и есть устойчивость медианы к выбросам. Таким образом, медиана может “не заметить” выбросы в данных, а среднее почувствует изменение даже одного значения в выборке. И это одно из самых главных отличий между медианой и средним.
В чем разница между медианой и средним?
- Как мы обсудили в прошлом пункте, медиана устойчива к выбросам, а среднее чувствительно к выбросам, и даже один выброс может утянуть за собой среднее значение всей выборки.
- Среднее можно вычислить только для численных признаков, а медиану можно вычислить как для численных, так и для порядковых признаков. Например, мы можем посчитать средний и медианный рост (численный признак) в группе испытуемых, но не можем вычислить их средний уровень их образования (порядковый признак), потому что нельзя сложить среднее и высшее образование и поделить их на два. Зато мы можем вычислить их медианное образование.
Что предпочтительнее использовать — медиану или среднее?
- Короткий ответ — ничто не лучше. Медиана и среднее описывают разные “центры” выборки, и каждый раз нужно выбирать что больше подходит к конкретным данным и к смыслу задачи.
- Если данные симметричные и без выбросов (это можно увидеть, например, на гистограмме), то значения медианы и среднего будут приблизительно одинаковы.
- Если данные перекошены или в них есть выбросы, то медиана лучше описывает “центр” выборки, чем среднее. Если же данные симметричные и без выбросов, то можно считать среднее.
- И медиана и среднее показывают только центральное значение выборки и ничего не говорят про разнообразие ее элементов. Поэтому вместе с медианой и средним всегда вычисляют меры изменчивости, например, разброс, дисперсию, стандартное отклонение.
Бонус для тех, кто дочитал до самого конца: тонкости в использовании медианы и среднего
- Иногда медиана или среднее считается в тайне от нас, а мы этого можем не замечать. Например, когда рисуете боксплот (он же ящик с усами), то горизонтальная линия внутри ящика по умолчанию показывает медиану. Когда считаете доверительный интервал, то по умолчанию это доверительный интервал для среднего.
- Если в датасете несколько признаков, то лучше считать что-то одно для всех признаков. Например, в датасете указаны данные пациентов — рост, вес, температура, индекс массы тела. Если вы посчитаете медиану для роста и веса, но среднее для температуры и индекса массы тела, то эти значения будут показывать разные центры для каждого признака. Лучше выбрать что-то одно — либо медиану, либо среднее, чтобы центры всех признаков были согласованы между собой.