THE TUMOR ROAST:РЕЛАТЛИМАБ. ЧАСТЬ 1

Автор: Александр Юдин
Администратор: Ольга Селиверстова
Фактчекер: Елизавета Чуйкова
Литредактор: Юлия Башкатова
Верстальщик: Надя Дехтярева
Содержание:
ЧАСТЬ 1
1.Кто такой LAG-3?
2.Ложка мёда
3.Первые звоночки
3.1. Выживаемость Без Прогрессирования (ВБП)
3.2. Number at risk (No. at risk)
3.3. Общая выживаемость (ОВ)
Дисклеймер: ниже написанный текст является личным анализом-мнением, не претендующим на какую-либо научную степень; автор лично снимает шляпу перед научной коллегией, что занимается разработкой лекарств, помогающим людям. За всю гуманитарную ниже канитель, направленную на повышение осведомленности читающего о текущем состоянии фармакологической промышленности, автора можно наградить разве что подзатыльником. Читайте на свой страх и риск.
1.Кто такой LAG-3?
Белок LAG-3 был открыт в 1990 году как трансмембранная молекула, экспрессирующаяся на CD4+ и CD8+ T-клетках, натуральных киллерах (NK-клетках), плазмоцитоидных дендритных клетках (pDC) и регуляторных T-клетках (Treg). У большинства типов клеток экспрессия LAG-3 регулируется посредством активации, за исключением pDC и Treg, где она, по-видимому, является конститутивной (то есть перманентно включена). При связывании с лигандом (которых очень много) он подавляет функцию T-клеток. Сейчас же он известен миру как рецептор иммунного чек-пойнта на ряду с такими гигантами как CTLA-4 и PD-1.
Почему LAG-3 так интересен в онкологии?
При раке T-клетки постоянно подвергаются воздействию опухолевых антигенов, что приводит к прогрессирующей цитокиновой потере и снижению способности CD8+ T-клеток уничтожать опухолевые клетки; так вот, LAG-3 как раз и подавляет пролиферацию T-клеток и секрецию цитокинов. Хроническая стимуляция опухолевым антигеном приводит к устойчивой активации LAG-3 на T-клетках, специфичных к опухолевым антигенам, вызывая их функциональное истощение. Такое действие очень схоже с PD-1, и даже есть информация о том, что LAG-3 и PD-1 работают в тандеме.
В 2010 году Пэрдолл начал изучать влияние блокирующих LAG-3 антител на лечение рака у мышей. Он и его коллеги обнаружили, что блокада LAG-3 сама по себе оказывает незначительное воздействие на опухоль, но в сочетании с другим (важно, это нужно запомнить) препаратом, нацеленным на контрольную точку PD-1, она демонстрирует высокую эффективность. Антитела против LAG-3 показали эффективность при многих видах рака, однако пока что только у крыс и мышей.
Следующей задачей стал перенос результатов лабораторных исследований с крыс на людей. Этим занялся Эван Дж. Липсон, доктор медицины, доцент онкологии в Университете Джонса Хопкинса. Липсон стал со-руководителем исследования RELATIVITY-047 — первого рандомизированного клинического исследования, завершившего III фазу и продемонстрировавшего пользу комбинации ниволумаба и релатлимаба (первого человеческого анти-LAG-3-антитела). Результаты исследования были опубликованы в Медицинском журнале Новой Англии (New England Journal of Medicine ) в январе 2022 года.
2.Ложка мёда
Исследование RELATIVITY-047 охватило 714 пациентов с ранее нелеченной неоперабельной меланомой. Набор был достаточно длительным и явно недешёвым, учитывая разброс по странам, в которых он проводился. Набрать семь сотен пациентов с нелеченной меланомой сложно, а неоперабельной ещё сложнее, поскольку таких пациентов крайне мало.
Пациенты, в свою очередь, получали либо ниволумаб в моно, либо комбинацию ниволумаба и релатлимаба. Медиана ВБП составила 10,2 месяца в группе комбинированной терапии против 4,6 месяцев в группе монотерапии.

На основании этих данных FDA одобрило комбинированную терапию в марте 2022 года.
Его производит и продаёт компания Bristol-Myers Squibb, спонсировавшая исследование RELATIVITY-047.
3.Первые звоночки
Такая мысль определенно посещала каждого человека, столкнувшегося с прикладной статистикой.

Если вглядеться в исследование подробнее, то в RELATIVITY-047 есть кое-какие моменты, намекающие на нестойкость доказательных (по всем нормам статистики) выводов, полученных в процессе анализа данных. И дело не столько в “невидимом” обмане, который никогда не выяснить (но который можно заподозрить), а в том, насколько натянуты некоторые показатели.
3.1 Выживаемость Без Прогрессирования (ВБП)

Особо не всматриваясь, мы видим классическую картину приемлемой доказательности, основанной на (внимание, умные слова) показателях величины эффекта, силы связи, разброса при уровне значимости α = 0,05; мощности исследования хотя бы в 80% и с учетом прогнозируемой 5% поправки на несоответствие. Проще говоря, все цифры говорят, что ниво+рел рулит и круче, чем ниво.
Доверительный интервал (ДИ) показывает степень разброса данных и гетерогенность выборки или её исходов. Он представлен всегда двумя числами, задающими диапазон “от и до”. Чем больше модуль разницы между числами, тем больше гетерогенность данных. Помимо этого, ДИ всегда сопряжён с доверительной вероятностью, показывающей шанс того, что вот в диапазоне “от и до” с 95% вероятностью (наиболее частая вероятность) лежит такая-то истинная мера средней тенденции, чаще всего среднее арифметическое или медиана.
Всё ещё не очень понятно, пожалуй упрощу.
Представим, что пчёлка из улья А работает 20 часов без отдыха, а пчёлка из улья Б — 22 часа без отдыха. Судя по этим ульям, пчёлы, в среднем, работают 21 час до того, как отдохнут. При 95% доверительной вероятности, доверительный интервал нашего среднего числа будет от 19,05 до 22,95, что означает, что если еще раз измерить среднее двух случайных пчелок из этих двух ульев 100 раз, то в 95 случаях из ста среднее будет в пределах от 19,05 до 22,95. (Немного не совсем так, поскольку результаты от двух пчелок мы не можем транслировать на популяцию целого улья, но для примера сойдёт.)
Также у нас есть ещё шмели из бомбидария А и бомбидария Б (так действительно называется домик для шмелей). Шмель из бомбидария А трудится 9 часов не отдыхая, а из бомбидария Б — 33 часа без отдыха. Среднее — всё тот же 21 час. Но ДИ с тем же условием здесь будет уже от −2,54 до 44,54.
Чувствуете разницу, да?
—---------------------------------------------------------------------------------------------------------------------
К чему была эта преамбула, к слову?
А всё дело в том, что этот самый разброс по ВБП в RELATIVITY-047 для ниво+рел составляет промежуток от 6,51 до 15,41 в месяцах при медиане в 10,22.
Здесь событие почти наверняка наступает на 3–6 месяце терапии и это довольно точный прогноз для пациента, если он спрашивает: “док, а сколько мне осталось до прогрессии?”. А когда наступление события случается где-то между 6 и 15 месяцами терапии, то, естественно, это и на бумаге выглядит сомнительно, и из уст для пациента звучит странно — словно врач не знает, что происходит. Помимо этого, верхний край ДИ для ниволумаба почти касается нижнего края ДИ ниволумаба+релатлимаба (6,47 и 6,51 соответсвтенно).
Если бы они перекрывались, то это шло бы в копилку недоказательности; но поскольку они на грани и не перекрывают друг друга, пока оставим эту тему в стороне — к тому же, про грани мы еще успеем поговорить.
Помимо вышесказанного, весьма стоит обратить внимание на отношения рисков или HR (выделен красным выше).
Чо это такое и как его искать не в парадигме простых (по типу месяцев в ВБП) средних, я, с вашего позволения, освещать не буду, поэтому скажу сразу: это показатель силы связи или, совсем уж грубо говоря, эффективности. Само его значение это и есть этот показатель. Как его интерпретировать — каждый решает для себя сам; но есть определенные тенденции, которые проще всего объяснить визуалом.
Видите пикчу снизу?

На графике Каплана-Мейера для ВБП я нарисовал стрелочки, которые заполняют промежуток между двумя кривыми. Вот если чёрная кривая пытается “потонуть ко дну” графика, а голубая наоборот “всплыть”, то HR будет уменьшаться, что хорошо, поскольку с уменьшением значение будет расти эффективность. А вот если наоборот черная будет всплывать, а голубая тонуть, то HR будет увеличиваться, что тоже хорошо, поскольку эффективность будет расти.
*кхм-кхм*
HR (ушедший вниз) от 1,00 до 0,90 в онкологии принято считать неэффективным/слабым/недоказательным; от 0,90 до 0,80 — субэффективным/слабо-средним/малодоказательным; от 0,80 до 0,75 — приемлемо-эффективным/средним/допустимо-доказательным. Всё, что ниже 0,75, относится к доказательному, сильному, крайне/ультра/гипер/мега-эффективному и так далее. Тут же наш HR равен 0,79, что является вполне допустимо-доказательным, особенно, учитывая, что его ДИ не пересекает единицу (это очень важно, пересекать он её никак не должен, картинка снизу для наглядности).

К слову, верхнее число ДИ для нашего HR равно 0,95. Так бывает — вполне “живое и естественное” значение, несмотря на то, что почти захватывает единицу. В целом пойдёт, но это ещё цветочки, ягодки нас ещё только ждут.
3.2 Number at risk (No. at risk)
“Number at risk” — метрика, которая используется для измерения количества пациентов, находящихся в группе риска развития определённого медицинского состояния или риска наступления события. В нашем случае это количество пациентов на определенном месяце, у которых прогрессирование ещё не наступило.
Их так добродушно всегда рисуют под кривыми Каплана-Мейера, чтобы перенасытить и так нечитаемые порой графики. Однако если знать куда смотреть, то можно увидеть не просто несостыковки, а достаточно жирные косяки.
Но сначала мой любимый визуал.
Взглянем еще раз на график ВБП, но без всякой “мишуры”, мешающей вглядываться в суть:

Голубой — ниво+рел, черный — ниво.
Вы не видите ничего странного в этих двух кривых?
А что если отрезать хвост до 3 месяца:

А если наложить их вот так:

Возвращаясь к No. at risk — я вывел числа в отдельную таблицу:

Читается она так: “на 6 месяце исследования под наблюдением осталось 188 пациентов на ниволумабе+релатлимабе и 152 — на ниволумабе”.
Зелёным же выделен визуально наилучший статистический показатель. Всё вроде верно, в группе ниво+рел какой месяц ни возьми, всегда пациентов больше остается; так и исследователи говорят.
Однако теперь мы слегка её переделаем:

Здесь теперь не абсолютное число оставшихся под наблюдением пациентов, а РАЗНИЦА между двумя месяцами — текущим и предыдущим. То есть числа обозначают количество ВЫБЫВШИХ из исследования — либо зацензуренных, либо встретивших событие (спрогрессировавших). Как мы видим, к 6 месяцу случилось РЕЗКОЕ падение количества участников исследования в обеих группах. Но в группе ниволумаба падение произошло более “глубокое” — с +40 пациентами, чем в группе ниво+рел. Всё бы ничего, но потом это падение начало выправляться в последующих точках наблюдения, в рукаве ниво выбывало меньше пациентов, и зелёным уже выделялся не рукав с ниво+рел, а с ниво в моно.
“А разве такое не может быть? И вообще, конечно, в ниво выбывать в последующие месяцы стало меньше людей — ведь в нём же на 6-м месяце уже и так выбыло много пациентов!”
Да, подобные “падения” в хвостах (то, что я отрезал на графике выше для наглядности) случаются во многих случаях при иммунотерапии. Резкую прогрессию на 3–6 месяцах можно увидеть как в KEYNOTE-006, так и в CheckMate 067 (последний так вообще копия текущего исследования). Однако такие падения должны быть хоть как-то либо обоснованы, либо исследование должно иметь более строгую базу и условия (хотя здесь с этим, в целом, все неплохо). Но скользких моментов и без этого хватает.
Кстати, о скользкости…

3.3 Общая выживаемость (ОВ)
– Yo, bro, check this out:

– Daaaayyyyyyym, bro, okay...
Что-то подобное у меня возникло в голове, когда я увидел 0,99 в верхней границе Доверительного Интервала в Отношении Рисков (HR) для общей выживаемости. Весь мир знает, что если бы там была единица, то результаты были бы едва ли доказательные. И исследователи это тоже знают.
Представьте мешок с лото: вы вслепую достаете оттуда “бочки” или “шарики” и понимаете, что проигрываете оппоненту-другу (да, в лото можно не только по телеку играть). Вы анализируете, что для победы вам остается вытянуть оттуда одно единственное число — 99. Есть примерно шанс в 2-4% (если из 200 бочек в мешке вы выставили с другом где-то ⅙), что вы вытяните это число вслепую. Однако. Если бы вы очень хотели выиграть, вы бы стали подсматривать в мешок, чтобы вытянуть оттуда нужное число, перебрав все ненужные? Вероятно, что нет; это ведь всего лишь игра, и она неинтересна, если мухлевать. А если я вам скажу, что в случае победы вам на руки дадут $1.000.000? Причём никто не заметит мухлежа, так как ваш друг в лице FDA — полуслепой и первично оценивает исследования уже как третий десяток только по результатам ВБП.
*кхм-кхм*
ну, суть вы поняли, я думаю
Я никогда не поверю в то, что такое число как 0,99 (выделено синим на фото сверху) может возникнуть случайно; чудес не бывает. Чтобы создать в исследовании качественные цифры, много ума не надо. Для выборки в три сотни достаточно исключить до десяти неудобных выбросов, чтобы из 1,10 сделать 0,99; либо перенасытить выборку, создающую среднее, похожими числами с отклонением от среднего в 10–20% в необходимую сторону. Первое сделать легче, так как можно просто зацензурить нежеланного пациента, который так неудачно погиб через неделю от побочного эффекта, считанного как опухолевый исход; считываем его как умершего от иных причин, и в расчёт не берём. Звучит злобно, но это реальность и так делают многие. Второй же сделать сложнее, так как нужно брать откуда-то пациентов, которые спрогрессировали в нужных нам диапазонах.
Помимо этого у нас есть пересекающиеся ДИ по границам (выделены зеленым сверху), верхняя граница ДИ ниво накрывает нижнюю ДИ ниво-рела. В случае ВБП там ещё было на грани, а тут прям перекрытие.
Исследователи знают, что они делают и ОПРЕДЕЛЕННО знают, с какими ожидаемыми числами им придется столкнуться.
Кстати, а где же p-критерий?
На западе давно практикуется понятие “Misuse of p-value”, которое тихонечко отменяет этот показатель из-за его малой репрезентативности.
В целом, я согласен с этой тенденцией, к нему есть очень много вопросов. В новых исследованиях (RELATIVITY относится к таким) его почти и не найти. Зато если бы он был, он был бы явно где-то на грани со стандартным 0,05. Log rank тест (тест, применяющийся для расчёта p-value для кривых Каплана-Мейера) не дурак, он очень чувствительный.
То, что не покажет HR, покажет p-value; особенно, когда оба показателя вычисляются одним и тем же тестом.
Upd: спасибо огромное фактчекеру, он всё же нашёл этот пресловутый p-критерий в ОВ, прошерстив массу статей; и он равен 0,046. Собственно говоря, как я и писал выше, он на грани с 0,05.
…вердикт был вынесен.
18 марта 2022 года FDA вынес приговор и зачислил опдуалаг (комбинацию релатлимаба и ниволумаба в одном флаконе) к действующим препаратам, имеющим лицензию на свободную продажу. Держатель: Bristol-Myers Squibb. Показания: первая линия для лечения метастатической/нерезектабельной меланомы.
15к баксов, ребята, стоит одна инфузия. Я, конечно, понимаю, новый препарат, всё такое, но ему по действию как оксолиновой мази до цефтриаксона, особенно, учитывая, что опдуалаг одобрен был по ВБП.