Визуализация данных в научных исследованиях
Александр Юрьевич СуворовВизуализация данных - неотьемлемый этап любой научной работы.
Мы всегда должны рассматривать графики, т.к. это помогает понять наши данные, выстроить в голове закономерности и найти какие-то ошибки и неточности.
Наша задача - оценить распределения каждой переменной, а на следующем этапе - оценить, как распределение одной переменной влияет на распределение другой (или других).
Характер распределения и тип графика зависят, к каому типу данных наша переменная относится.
Оценка распределения одной вещественной переменной
Гистограмма - показывает, как количественно распределены значения от самых маленьких до самых больших.
Боксплот - позволяет оценить очень важную информацию о положении медианы, перцентилей, минимума и максимума, вероятных аномальных значений. На схеме показаны пояснения, как читать боксплот.
Ядерная оценка плотности - оценивает вероятность появления той или иной случайной величины среди значений нашей переменнной интереса
Распределения ординальных и категориальных переменных
Барплот - показывает, как распределены ранги, категории для категориальных, бинарных и порядковых переменных
Влияние распределения одной переменной на другую (другие)
Распределение некоей величины во времени - простейший динамический ряд, отражающий изменение некоей величины (среднего, медианы) с течением времени:
Динамические ряды с группировкой позволяют оценить динамику по некоторому показателю (например, по средней) в разных группах за один временной промежуток
Простейшая диаграмма рассеяния - показывает совместное распределение двух вещественных переменных
Дополнительные манимуляции стаким графиком позволяют визуализировать боксплоты (другими словами, визуализировать маргинальные распределения) по каждой переменной для нашего удобства, а также менять размер точек в зависимости от количества единиц (пациентов) с таким же значением.
Также мы можем предположить существование линейной зависимости между нашими 2-мя переменными:
Для оценки различий распределений вещественных переменных в разных группах довольно наглядны боксплоты и гистограммы с группировкой:
Группировка в барплоте ранговых/категориальных переменных:
Корреляционная матрица. Такие графики наглядны, когда переменных не очень много. Внутри указаны коэффициенты корреляции, а цвет отражает связь (прямую или обратную), насыщенность прямо пропорциональна силе корреляции
Кривые Каплана-Мейера бывают незаменимы при оценке выживаемости пациентов.