Визуализация данных в научных исследованиях

Визуализация данных в научных исследованиях

Александр Юрьевич Суворов

Визуализация данных - неотьемлемый этап любой научной работы.

Мы всегда должны рассматривать графики, т.к. это помогает понять наши данные, выстроить в голове закономерности и найти какие-то ошибки и неточности.

Наша задача - оценить распределения каждой переменной, а на следующем этапе - оценить, как распределение одной переменной влияет на распределение другой (или других).

Характер распределения и тип графика зависят, к каому типу данных наша переменная относится.

Оценка распределения одной вещественной переменной

Гистограмма - показывает, как количественно распределены значения от самых маленьких до самых больших.

Боксплот - позволяет оценить очень важную информацию о положении медианы, перцентилей, минимума и максимума, вероятных аномальных значений. На схеме показаны пояснения, как читать боксплот.


Ядерная оценка плотности - оценивает вероятность появления той или иной случайной величины среди значений нашей переменнной интереса

Распределения ординальных и категориальных переменных

Барплот - показывает, как распределены ранги, категории для категориальных, бинарных и порядковых переменных

Влияние распределения одной переменной на другую (другие)

Распределение некоей величины во времени - простейший динамический ряд, отражающий изменение некоей величины (среднего, медианы) с течением времени:

Динамические ряды с группировкой позволяют оценить динамику по некоторому показателю (например, по средней) в разных группах за один временной промежуток

Простейшая диаграмма рассеяния - показывает совместное распределение двух вещественных переменных

Дополнительные манимуляции стаким графиком позволяют визуализировать боксплоты (другими словами, визуализировать маргинальные распределения) по каждой переменной для нашего удобства, а также менять размер точек в зависимости от количества единиц (пациентов) с таким же значением.

Также мы можем предположить существование линейной зависимости между нашими 2-мя переменными:

Для оценки различий распределений вещественных переменных в разных группах довольно наглядны боксплоты и гистограммы с группировкой:

Группировка в барплоте ранговых/категориальных переменных:

Корреляционная матрица. Такие графики наглядны, когда переменных не очень много. Внутри указаны коэффициенты корреляции, а цвет отражает связь (прямую или обратную), насыщенность прямо пропорциональна силе корреляции

Кривые Каплана-Мейера бывают незаменимы при оценке выживаемости пациентов.









Report Page