The AI Scientist

Психометрика и психоскептика

Авторы статьи «Towards end-to-end automation of AI research» (Lu et al., 2026) говорят о том, что элементы ИИ в том или ином виде использовались для автоматизации или улучшения научных исследований еще до появления больших языковых моделей (LLM). В частности, они приводят следующие примеры использования ИИ: открытие химических структур и материалов, нахождение математических доказательств, анализ прежде собранных или накопленных данных для получения новых инсайтов. С появлением LLM роль ИИ в научных исследованиях расширилась. Теперь ИИ используется для генерации новых гипотез, написания литературных обзоров, программирования экспериментов. Но авторы считают, что стоит стремиться к тому, чтобы научное исследование было полностью автоматизировано и могло быть проведено без вмешательства человека: от выдвижения новой идеи до публикации статьи, по крайней мере в компьютерных науках.

Авторы статьи создали систему The AI Scientist, которая представляет собой пайплайн для полной автоматизации исследования. В статье они представляют результаты проверки работы своей системы на примере генерации статей для одной из самых престижных конференций в области машинного обучения (International Conference on Learning Representations (ICLR)).

С помощью предложенной системы The AI Scientist они сгенерили несколько статей для этой конференции, а точнее для воркшопа, который проводился в рамках этой конференции (I Can’t Believe It’s Not Better (ICBINB)). Общая последовательность была следующей:

1) Генерация идеи исследования: LLM предлагает идею, проверяет ее новизну, оценивает перспективность идеи

2) Проведение компьютерного эксперимента (в области машинного обучения экспериментирование проводится только в такой форме)

3) Написание статьи: создание темплейта, написание статьи, ревью и корректировка статьи.

Генерация статей была полностью автоматизирована и не предполагала вмешательства человека, хотя, по замечанию авторов, на каждой стадии они вручную отбирали наиболее многообещающие и релевантные работы (т.е. совсем без вмеiательства человека не обошлось).

Также после завершения работы авторы статьи отобрали из множества сгенерированных статей три манускрипта на основе следующих критериев: тема подходит к теме конференции, код выполнен без ошибок, манускрипты отформатированы корректно. Выбранные статьи были отправлены на конференцию и прошли рецензирование вместе с остальными присланными работами (всего для выбранного воркшопа было отрецензировано 43 работы). При этом, ревьюеры знали, что какие-то статьи написаны полностью ИИ, но не знали какие.

В результате один из сгенерированных манускриптов получил достаточно высокие оценки ревьюеров и был принят к публикации на конференции (точнее, был бы принят, если бы авторы не отозвали его в соответствии с соглашением с организаторами конференции), два других получили низкие оценки и не были приняты. Примечательно, что принятая рукопись сообщала о негативном результате, что соответствовало фокусу воркшопа на интересных негативных результатах.

Авторы пишут, что несмотря на то, что одна из трех сгенерированных системой The AI Scientist работы получила высокие оценки, системе еще есть куда развиваться. Они отмечают, что у воркшопов доля принятых работ значительно выше, чем у основных конференций. А это означает, что манускрипт скорее всего не прошел бы рецензирование, если бы был подан на основную конференцию, там конкуренция и требования к качеству работ выше. Следовательно, The AI Scientist пока не способен соответствовать стандартам публикаций высшего уровня и даже не делает это стабильно на уровне воркшопов.

Основные факторы недостаточного качества генерируемых статей: генерация наивных или недостаточно разработанных идей, некорректная реализация основной идеи, недостаток глубокой методологической строгости, ошибки в реализации экспериментов, дублирование рисунков в основном тексте и приложении, а также различные виды галлюцинаций, например, неточные ссылки.

Но авторы считают, что появление статьи, подготовленной по итогам самостоятельной работы The AI Scientist, написанной полностью ИИ и прошедшей рецензирование для воркшопа при ведущей конференции по машинному обучению, знаменует собой важную веху в научном развитии. Хотя остаются проблемы, связанные со стабильностью результатов и достижением качества публикаций высшего уровня, этот успех демонстрирует растущую способность ИИ к научному рассуждению и указывает на наступление новой эпохи, в которой процесс открытия больше не является исключительно человеческим занятием. Они надеются на то, что темп, с которым ученые смогут пожинать плоды научных открытий, может резко ускориться.

Комментарий:

У меня после прочтения этой статьи появились противоречивые чувства. С одной стороны, может быть и неплохо, что ИИ делает все сам, и может быть, действительно, это как-то ускорит научный прогресс. С другой стороны, как мы видим, пока без человека не обойтись. И человеку в этом процессе отводится вспомогательная роль – фильтровать работу, сделанную ИИ. Самая интересная и творческая часть научного процесса: осмысление, придумывание нового, генерация гипотез и идей – все это отдается ИИ. Встает вопрос: а зачем это нужно человеку?

В то же время, надо помнить, что The AI Scientist всего лишь инструмент, и если рассматривать эту систему не как замену человеку, а лишь как дополнительный ресурс для исследований, то возможно, что это только обогатит и расширит возможности научного исследования.

Авторы пишут о полной автоматизации научного процесса, как о некой мечте ученого. Но я уверена, что если вы спросите у ученых, никто из них не ответит, что он мечтает, чтобы исследования делал ИИ. Возможно, было бы неплохо, если бы ИИ писал заявки на гранты, или правил оформление статьи, таблицы и т.п. Но все исследование? Для чего вообще ученые занимаются исследованиями, в таком случае? Не ради зарплаты точно 😊

И еще один момент, применительно к социальным наукам. Пока система The AI Scientist проверена только на компьютерных науках и не способна проводить эксперименты на людях. Но вполне возможно, что в будущем возможен и такой вариант. Допустим, ИИ может создавать компьютерные формы опросников, связываться с потенциальными респондентами, собирать от них ответы на вопросы какого-либо опросника или результаты выполнения тестов, чистить данные, анализировать их в соответствии с заранее прописанной процедурой и т.п. Или например, анализировать профили в социальных сетях, или чаты в телеграм каналах. Полезно ли это будет для социальных наук? У меня нет ответа на этот вопрос. А что думаете вы о перспективности и необходимости такой системы?

Статья:

Lu, C., Lu, C., Lange, R. T., Yamada, Y., Hu, S., Foerster, J., ... & Clune, J. (2026). Towards end-to-end automation of AI research. Nature, 651(8107), 914-919.

The AI Scientist

Report Page