ПЫТАТЬСЯ ПОНИМАТЬ БИОСТАТИСТИКУ
как они растут /(детальный разбор для тех, кто любит детальные разборы)

Если вы не статистик и не математик, самая сложная вещь — это как-то НАЧАТЬ попытки разбираться в статистике, хотя бы на бытовом уровне. Потому что неясно, каким боком подойти, с какого края подобраться: если гуглить какие-то частные вопросы, особенно на русском, вы непременно будете находить кучу непонятной запутанной фигни (и не потому что это что-то умное, а вы тупенький, а потому что часто это реально непонятная, запутанная, скучная, неэстетичная, ущербная фигня, автор которой, кажется, сам едва понимал что и зачем пишет). Если искать учебники, особенно на русском, велик шанс напороться на какой-нибудь, на пятой странице которого вам расхочется раз и навсегда в чём-то разбираться (до сих пор с ужасом вспоминаю занятия по ОЗЗ, где нам какие-то статистические вещи пытались объяснять на койко-днях и койко-местах и тому подобной хрени, что вселяло ненависть ко всем этим формулам и самому предмету. Додуматься вот так вводить студентов в статистические методы — это лютый пиздец, товарищи, как только сейчас понимаю).
Триша Гринхальх, написавшая знаменитое руководство «How to read a Paper», где в понятном для клиницистов виде пересказала учебник Сакетта, основоположника концепции доказательной медицины, ключевой раздел «Статистика для неспециалиста» своей книги начинает примерно так, игриво:
«вам не надо уметь создавать машину, чтобы водить её»
Очень люблю Тришу и книгу она написала крутую, но что касается универсальной фразы про машину, так и хочется обнять и сказать что-то вроде «Любимая и славная Триш, ну ты такая простая как пить дать, так-то можно и ядерную физику объяснять в лайт режиме». И многие оказываются в этой «редукционной» ловушке. Автор крутого курса на Stepik Анатолий Карпов в одной из своих вводных статей описывал подобные упрощения как чёрный ящик:
«Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value), который и расставит все точки над i.»
Короче, сейчас у меня нет задачи объяснять, насколько это важно — уметь разбираться в статистических методах. Каждый приходит к этому сам. Моя задача рассказать, что если вы хотите действительно понимать статистику в более-менее целостной картине и понятия не имеете, как к этому подступиться, то во всём реально сесть и разобраться самостоятельно и для этого не надо обладать какими-то особыми интеллектуальными способностями. Я предлагаю путь, который сам пробами и ошибками протаптывал и результатом доволен.
1. Первое простое, что у многих и так на слуху — «Статистика и котики» Владимира Савельева

Идея крутая и книга действительно полезна, так как в максимально кратком виде поясняет много базовых технических моментов. Уповать же в самом начале только на неё — не лучшая идея, особенно, если вы никогда напрямую со статистикой не контактировали, не проводили никаких исследований, где вам что-то приходилось рассчитывать и вообще не имеете общего представления «ЗАЧЕМ ЭТО ВСЁ». Дело в том, что все, конечно, очень любят котиков, но подсчёт трёх котиков и двух пёсиков сложно связать с реальной жизнью — непонятно зачем это вообще всё нужно. Тем не менее найти и скачать эту книжку стоит и тупо просмотреть НА САМОМ ПЕРВОМ ЭТАПЕ. Садиться и читать всё подряд, пытаясь сделать вид, что перед вами нечто увлекательное — не получится и не надо. Для начала достаточно просто разобрать пару первых глав, где автор рассказывает что такое стандартное отклонение и дисперсия, и зачем там нужны квадраты и квадратные корни. Уже с пониманием этого можно двигаться дальше, а в книжку заглядывать как в некий справочник, когда что-то мелкое непонятно в техническом плане). Она не требует какой-то особой подготовки: если вы учились в школе и умеете читать, умеете складывать, вычитать, умножать и делить, то всё поймёте и заложите почву для дальнейшего обучения. А сам проект вы можете поддержать здесь.
2. Если «котики» Савельева — это больше про сухую, базисную, техническую часть, то насчёт реальной жизни важно прочитать что-то, выстраивающее целостную картину: а зачем вообще нужна статистика? Нетфликс, криминалистика, терроризм, медицина: как всё в современном мире построено на числах? как можно манипулировать данными, как пользоваться теорией вероятностей в повседневной жизни? и вообще, как и за что полюбить математику? Я считаю, что в этом плане идеально подходит бестселлер Чарльза Уилана «Голая Статистика».
Начало весьма и весьма воодушевляющее :
«Я всегда недолюбливал математику. Мне вообще не нравятся числа как таковые. На меня не производят впечатления заумные формулы, не имеющие реального практического применения. Но особенно, учась в средней школе, я не любил алгебру, по той простой причине, что никто так и не смог мне толком объяснить, почему я должен изучать ее. Как вычислить площадь под параболой? Кому это нужно?»

Забавные истории из жизни про тёрки с ненавистной математикой отлично подбадривают. Автор также даёт объяснения основным статистическим концепциям типа центральной предельной теоремы, нормального распределения, стандартной ошибки среднего и основ регрессионного анализа. Хочу подчеркнуть важное, что в отличии от «котиков», там разбирается не сухая техническая часть, а больше концептуальная: статистика как большая картина, всё то, что необходимо понять на интуитивном уровне, целостно, прочувствовать, перед тем как подходить непосредственно к детальному изучению. Порой книга кажется ооочень увлекательной, так как сюжетно проработана в лучших традициях жанра, но порой становится невыносимо нудной, из-за того что Уилан некоторые концептуальные штуки повторяет и перетирает вновь и вновь, так часто, что кажется «ну это же так очевидно, сколько можно!!!». При этом, стоит отдать должное Уилану, когда вы всё прочтёте и задумаетесь, были ли те штуки, которые вас успели задолбать, настолько же очевидными перед чтением — скорее всего окажется, что нет. Но он настолько заёбывает, что кажется — вы всегда это знали.
3. Время приступить к Стентону Гланцу

Скачать русский перевод четвёртого издания (1994 год) можно здесь
Пусть вас не смущает, что это было 25 лет назад и с тех пор книга переиздавалась ещё три раза, основная, самая прекрасная часть её не изменилась. Впрочем тот, кто хорошо знает английский, может скачать последнее седьмое переиздание, дополененное рядом методов тут
Про «Гланца» я знал довольно давно, перед тем как просто взять, сесть и прочитать его. Потому что несмотря на то, что написан учебник отличным языком и полон интересных примеров, может оказаться так, что вам будет его (как и мне) сложно воспринимать, не имея в голове базисные концепции (которые, например, до тошноты вдалбливает Уилан в своей «Голой статистике»). Гланца особенно прекрасно читать, когда в голове уже есть общая картинка и интуитивное представление. Возможно, что у вас эта картинка уже есть и вам просто можно пренебречь первыми двумя пунктами этой инструкции. Всё индивидуально.
Читать всего Гланца или не всего — зависит от вашей усидчивости. Но что крайне важно и обязательно: тупо сесть и подробно (конспектируя, перечитывая, проживая, проговаривая, пересказывая — как угодно) заставить себя чётко разобрать первые четыре главы (предисловие, «статистика и клиническая практика», «как описать данные», «сравнение нескольких групп дисперсионный анализ», «сравннеие двух групп: критерий Стьюдента» — это где-то 120 страниц с кучей картинок и задач, которые лучше сразу же решать для закрепления материала). Можно сказать, что все принципы, которые разбираются в этих главах, так или иначе повторяются в остальных, просто в иных модификациях. Когда я разбирал первые четыре главы и впервые столкнулся с основными принципами тип «как же всё устроено изнутри», у меня был ряд мощных связующих озарений (почти как оргазмов у Марины Абрамович в ящике), собирающих некоторые разрозненные части знаний в целое, когда вдруг в один момент понимаешь то, о чём никогда даже подумать не мог: «а вооот оно как устроено!», «ах вот оно откуда берётся», «ах вот о чём говорил Уилан», «вот оно как связано». До этого у меня случалось подобное разве года три назад с пониманием фундаментальной иммунологии, когда я вдруг наткнулся на клонально-селекционную теорию Бернета, но это другая история. Думаю, что подобное случится со многими, главное сесть и разобрать.
И маленькое замечание — не пытаться понять всё досконально. Некоторые математические детали тип «что такое степени свободы», «а почему минус один у выборки», а «почему формула ошибки среднего именно такая?» будут непонятны. Дело в том, что их нельзя проигнорировать на начальном этапе и стоит воспринимать как должное. Зато понять и разобрать (ПРОЧУВСТВОВАТЬ!) эти вещи можно, достаточно продвинуться вглубь. Их понимание требует полной картины в голове. Место для этих деталей можно найти только когда весь пазл уже более менее сложен в картинку.
4. Время приступить к видео-курсам. Самое лучшее, что можно сделать после Гланца (прочитали ли вы всего четыре первые главы или осилили весь учебник) — пройти курс Анатолия Карпова на Stepik

— «Основы статистики» (stepic.org/76)
— «Основы статистики. Часть 2» (stepic.org/524)
В курсе две части, курс бесплатный, бессрочный — его можно когда угодно начать и когда угодно закончить. (Рассчитан на пользователей «с нуля», но всё же лучше к нему подойти после Гланца). Мне кажется, проходить курс на самом сайте не очень удобно. Удобнее скачать большИе видео – вот отсюда , где уроки каждого раздела склеены в часовые видео. Можно смотреть эти видео целиком на ютубе или оффлайн , конспектировать, а уже затем заходить на сам степик, пролистывать всё пройденное и просто выполнять задания (я так делал). Для бОльшего эффекта советую просматривать комментарии под видео-уроками и заданиями на сайте степика, особенно те, у которых много лайков (это часто либо исправленные недочёты в видео, либо интересные дополнения, либо наиболее общие «непонимания» и ошибочные интерпретации).

Если что, ещё есть мобильное приложение stepik, и можно проходить курсы в приложении, где есть функция сохранять каждое видео и смотреть его оффлайн.
5. В процессе работы на степике может сохраняться ряд некоторых технических вопросов, которые Карпов не разбирает и которые не поднимаются в Гланце. Для ответов на многие из них и более фундаментального понимания статистических методов потребуется обращение к основам теории вероятностей на Khan Academy

Кажется, невозможно объяснить азы математики и теории вероятностей лучше, чем в khanacademy. У человечества на данный момент просто нет ничего круче этого. Где-то в интернете прочитал, что теорвер хорошо разбирать по советским учебникам, классическим, вроде Гмурмана. Это пиздёж! НЕПРАВДА! Не тратьте время! (я пытался. тщетно). Скорее регистрируйтесь на https://www.khanacademy.org , там всё удобно, интересно и бесплатно !!!
К слову Академия Хана появилась, когда аналитик Саламан Хан вызвался помочь своей племяннице с математикой. Правда, возникла сложность: Хан в тот момент находился в Бостоне, а его племянница жила в Новом Орлеане. Чтобы объяснить девочке математику, Хан сперва использовал мессенджер и специальный сервис, где рисовал для нее с помощью графического планшета решения задач, а позднее по совету знакомых стал использовать YouTube, размещая на сервисе микролекции и сопровождая их закадровым комментарием. Результат поразил Хана, полагавшего, что YouTube подходит лишь для того, чтобы постить ролики про котиков. Вскоре он стал получать десятки, а затем сотни и тысячи писем от родителей школьников, авторы которых благодарили его за внятное объяснение элементарной математики, которую они благополучно забыли со школьных времен и были не в состоянии объяснить своим детям. источник

Лет шесть назад в рунете вышли переводы некоторых курсов с Академии Хана, в том числе по теории вероятнсти.
Видео по основам теории вероятностей на русском собрал в этих двух плейлистах:
Плейлист 1 (от основ)
Плейлист 2 (к концепциям)
Тем, кто хотя бы на среднем уровне знает английский, следует сразу идти на полный курс с детальным «хановским» разбором основных статистических концепций и теории вероятностей https://www.khanacademy.org/math/statistics-probability (к сожалению, русских сабов нет, зато есть английские и ряд других языков). Два плейлиста на русском, представленные выше — это только два раздела по теорверу из этого курса. Есть повод подтянуть язык, если что.
6. Параллельно со всем перечисленным, для лучшего понимания научной методологии и возможных подводных камней, следует прочитать уже упомянутую книгу Триши Гринхальх «Основы доказательной медицины» и прекрасный научпоп про историю современной статистики «The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century»
Триша в понятной и интересной форме рассказывает о том, что такое доказательная медицина, как доказательная медицина основывается на статистике. Разбирает кучу важных штук в плане методологии. Хоть сами математические методы не разбирает, но много о них говорит и всячески подчёркивает их важность. Последнее русское переиздание её выкладывали в телеграме здесь (найдено в репостах у медача). Иногда она чересчур нудно размусоливает отдельные моменты (например, во второй главе про то, как пользоваться advanced поиском в пабмеде) — подобные инструкции не носят значимый повествовательный характер, можно не мучиться и пропускать их, просто знать что они есть и возвращаться при необходимости.
«The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century» «Леди пробует чай: как статистика произвела революцию в науке двадцатого века». На самом деле статистику делали харизматичные и увлечённые дяди, поэтому появление многих фундаментальных методов связано с какими-то странными нетривиальными историями. В книги они все собраны (это что-то вроде «охотников за микробами» Крюи, только про статистику) Так, само название книги связано со случаем, когда Фишер решил проверить свою коллегу фиколога Муриэль Бристол, которая утверждала, что по вкусу может определить, в какой последовательности наливали в ее чашку чай и молоко. Фишер продумывал эксперимент, как проверить необычные способности Бристол — насколько случайный характер носят её предсказания — и это натолкнуло его не только на создание точного теста Фишера, но также послужило появлением одной из ключевых концепций фишеровской статистики — «нулевой гипотезы». На русском книги, к сожалению, нет. Вот ссылка на pdf вк
7. Если взять и сделать всё перечисленное выше, вы достигните приличного уровня и останется только осознанное свободное плавание. Если вы сносно владеете английским — это особенно круто, так как теперь вы сможете читать легендарный учебник Biostatistical Analysis (Zar) international edition или любой другой учебник по доказательной медицине и клинической эпидемиологии среднего и продвинутого уровня. Собрал крутые книги разного уровня в этом альбоме , пока там только обложки, но позже, надеюсь, добавлю ссылки для скачивания и свои комментарии)
Ещё вам в полной мере будет понятно, что описывается в курсе Кокрановского сотрудничества по написанию систематического обзора и мета-анализу (можно потом даже самостоятельно что-то посчитать, главное придумать что) Раз уж заговорили про Кокран, у российской ветки также есть ряд видео-уроков по метаанализу и систематическим обзорам, они, эти видео, сделаны ужасно, слушать их тяжело, но если очень надо — можно (я смотрел!)
Теперь любой возникший вопрос вы сможете корректно сформулировать на английском и обнаружить, что на каком-нибудь тематическом форуме его, скорее всего, уже не раз разбирали. Прочитав разбор вы наверняка будете понимать, о чём там идёт речь и выхватывать нужное. Плюс тематических форумов и англоязычных блогов заключается в том, что там люди обычно изъясняются на нормальном человеческом языке, в отличии от каких-нибудь справочников или статей на условной вики (особенно в рунете!!!). Если вам надо будет разобрать, например, ANCOVA — вы сможете это легко сделать, найдя кучу понятных видосиков на ютубе по теме, типа такого (тут уже всё упирается в то, насколько хорош ваш английский).
*если у вы изначально свободно владеете английским, можете сразу начинать с англоязычных источников — седьмое издание Гланца в оригинале, упомянутый курс на khanacademy, вводные курсы на coursera (последних много и они, кажется, все очень крутые). Если уровень колеблется в пределах intermediate, то разбор азов лучше начинать с указанных русскоязычных источников, чтобы добиться понимания, после чего более сложные статистические концепции будут понятны даже со средним знанием английского языка, необходимую терминологию всегда можно уточнить на мультитране).
8. Ну и если совсем торкнет, то можно податься во все тяжкие тип осознать насколько крут R или двинуться на байесианстве. Но тут я сам только начинаю разбираться, так что…
