GraphPad Prism. Диаграммы Grouped и Nested

GraphPad Prism. Диаграммы Grouped и Nested

https://t.me/ad_research

Продолжаем разбирать работу в GraphPad Prism и ранее мы познакомились с её интерфейсом и научились редактировать графики. Но пока что мы работали только с типом таблиц Column для описательной статистики и XY для построения диаграмм. Так что сегодня разберём ещё два типа таблиц – Grouped и Nested.


Начинаем со стандартного приветственного окна GraphPad, где выбираем тип таблицы и данных – Grouped и выбираем sample data под названием Entering replicate data.

Данный тип таблиц используется в тех случаях, когда у нас есть несколько факторов, которые могут влиять на результат. Например, если мы просто исследуем влияние лекарства в группе "контроль", "опыт" и "положительный контроль" (три группы, один фактор – лекарство), то следует использовать таблицу Column или XY для связанных выборок. Но если мы, например, хотим оценить всё тоже самое у мужчин и женщин, то появляется второй фактор – пол. Тогда используются таблицы Grouped. В целом, факторов может быть сколько угодно, например, наличие какого-то хронического заболевания в анамнезе, возрастная группа, раса и тд. Правда конкретно Prism умеет работать только с тремя и достаточно коряво.


Но пока что возьмём два фактора в стандартном датасете.


Здесь в колонках находится один фактор, по всей видимости какой-то препарат, две группы: "контроль" и "препарат". В качестве второго фактора идут типы животных: (1) дикого типа и с нокаутом (нефункциональными версиями) (2) гена А и (3) Б (итого три группы). Повторности, то есть отдельные животные, организованы в строчках. На мой взгляд это не очень удобно, если у тебя будет сотня-другая реплик в точку, то таблица получается очень широкой. Но как есть.


Кстати хочу отметить, что две повторности на группу (контроль, нокаут А) – это как-то несерьёзно и стоило бы добрать данных. 

На вкладке с графиками нам сразу предлагается выбрать как визуально представить данные. Напомню, что типы диаграмм часто привязаны к типу таблиц. При выборе summary data графики будут с разными мерами центральной тенденции и разброса, но лично я предпочитаю использовать варианты из вкладки Individual values

Такая моя любовь связана с тем, что читатель точно поймёт какие я данные получила и как они были распределены. В качестве центра и усов выбираю или среднее±стандартное отклонение или среднее с доверительным интервалом для нормально распределённых данных или медиану с интекваритальным размахом в случае ассиметричного распределения или дискретных данных. Вообще с учётом малой выборки в этом конкретном датасете проверка нормальности бессмысленна, так как мы практически всегда её подтвердим, но это может и не отражать реальности (читай подробнее тут)


В диаграммах для Grouped таблиц таже можно найти Heat Map. 

Здесь 1,2 и 3 это наши группы животных, а А и В – это контроль и препарат. Цвет Heat Map соответствует некоторому значению, в данном случае среднему значению измеряемого параметра в группе. Весьма наглядно видим, что в контроле разницы между животными особо нет, зато с препаратом она весьма очевидна, а ещё и отличается у трёх типов животных. Но чаще встречала, что на Heat Map пишут не абсолютное среднее, а относительное изменение параметра.


Ещё есть вариант boxplot с индивидуальными значениями, но для этих данных, где n не превышает трёх, выглядит весьма убого.

Лично я бы оформила диаграмму для этих данных вот так. Здесь среднее и доверительный интервал и есть индивидуальные значения. Тему оформления использовала одну из стандартных, только немного поменяла цвет точек.

*эстетические чувства автора могут отличатся от таковых у читателей, так что каждый волен сам выбирать формат и цветовую схему. Главное, чтобы график отражал, что именно мы получили и что хотим этим сказать.


Выше мы говорили про вариант Grouped анализа для двух факторов, но призма хоть и весьма коряво, но умеет работать с тремя. Чтобы посмотреть как, создадим новую таблицу и возьмём стандартный датасет Three-way ANOVA 2x2x2

Посмотрим на открывшуюся таблицу

Здесь в строчках один фактор – курение, а в столбцах два – пол и жирность и используются все их сочетания. Повторности как и в классическом grouped расположены горизонтально. Очень важно называть факторы единообразно и в одинаковом регистре, например, low fat и Low fat могут считаться программой по-разному и отобразиться далее неправильно.


Переходим на вкладку с графиком и здесь программа сразу предлагает нам вариант презентации данных. 

Фактор в строках у нас стал подписью по Х, первый фактор в столбцах разделил график на две половины и второй фактор в столбцах стал легендой. Учитывай это расположение, когда будешь вбивать свои данные. Также здесь программа не предлагает выбирать меры центральной тенденции и разброса, по умолчанию здесь среднее и стандартное отклонение.

 

Лично я представила бы этот график вот так, если бы exercise tolerance были бы непрерывными данными:


И вот так, если бы это была дискретная величина:


На этом мы закончим обзор графиков Grouped и перейдём к другому типу таблиц – Nested. Они располагаются в конце, но по вайбам очень похожи с группами. Nested используется тогда, когда есть несколько факторов, влияющих на данные, но при этом одни как бы вложены в другие и степень их влияния на финальный результат отличается. Очень часто таким вложенным фактором может являться техническая повторность. Например, мы измеряли уровень глюкозы у десяти крыс (биологические повторности) при действии двух препаратов и у каждой крысы проводили три измерения (технические повторности). Усреднять по техническим повторностям не очень корректно, так как в них заложена вариабельность самого метода измерения, которая в свою очередь может отражаться на различиях в группе. Поэтому лучше использовать именно «вложенный» анализ.


Как мы уже не раз замечали, в Призме тип таблиц привязан к будущему анализу и для Nested может использоваться вложенный t-тест, если групп только две, или вложенный дисперсионный анализ, если групп больше. К сожалению, большего количества факторов (например, два верхнеуровневых и больше одного вложенного) эта программа анализировать не позволяет.


А мы посмотрим что там внутри стандартного датасета Nested one-way ANOVA

Здесь у нас есть два метода борьбы с переносчиками болезней крупного рогатого скота и контроль. Для каждого метода оценивали объём эритроцитов в четырёх случайных коровах в трёх стадах. В данном случае отдельные коровые как бы вложены в стадо. Можно было бы посчитать средний объём эритроцитов у коровы по стаду и сравнивать стада в экспериментальных группах. Можно было бы слить всех коров каждой группы в единый массив без учёта стада. Но тогда бы мы могли потерять часть информации, так что используем именно nested.


Посмотрим, что за график предлагает нам программа

Здесь представлены три секции – это экспериментальные группы. По оси Х находятся порядковые номера стад коров, а точки – это объём эритроцитов у отдельной коровы. Предлагаемый график выглядит плохо, так как почему-то призма всегда предлагает один символ на три разные группы и одинаковые цвета на боксплоты. Так что тут придётся доработать.


Лично я бы сделала этот график таким:

Опять использовала среднее и 95% доверительный интервал, а также вариант с индивидуальными значениями. Кстати, с учётом того, что использован доверительный интервал, можно предположить, что значимые различия между группами и контролем найдутся, поскольку усы не пересекаются. Это не всегда работает, но достаточно часто. А вот при использовании стандартного отклонения или стандартной ошибки среднего – это правило соблюдается сильно реже. Но я проверила, оба метода борьбы с переносчиками заболеваний статистически значимо работают, коровы могут быть спокойны.


На этой позитивной ноте завершаю сегодняшний пост. В следующий раз поговорим про оставшиеся таблицы и их графики и далее перейдём к их анализу. 

Report Page