Когда думать вредно
@DevilOfTrade
Технология цепочек рассуждений (ризонинга) стала прорывом в области создания искусственного интеллекта (ИИ) — за счет нее большие языковые модели (LLM), такие как o1 и DeepSeek, могут решать сложные математические задачи и создавать работающий код. Но эта же технология может быть фактором, который вредит качеству ответов моделей, сообщают исследователи Калифорнийского университета. В своем докладе от 12 февраля они отмечают, что LLM с возможностями ризонинга могут отдавать предпочтения своим рассуждениям и игнорировать информацию о внешней среде. Это приводит к тому, что ИИ бесконечно планирует свои действия, но ничего не делает, принимает самовольные решения или отказывается от задачи из-за стресса, который вызывают его «мысли». Вместе с этим использование обычных LLM без ризонинга может быть почти вдвое дешевле при сопоставимых результатах, утверждают исследователи.
Большие языковые модели (LLM) набирали популярность в 2023 г., и уже тогда многие специалисты ставили под сомнение их возможности мыслить в классическом понимании этого слова. В основе LLM лежит технология генерации токенов: по сути, модель пытается создать наиболее вероятную последовательность слов в ответ на запрос пользователя. Эти последовательности далеко не всегда оказывались логичными или адекватными поставленной задаче. Со временем исследователи обнаружили, что определенные фразы, побуждающие к рассуждениям, позволяли улучшить «мыслительные способности» LLM. Аналитики Токийского университета и Google выяснили, что этому способствуют, например, требования «думать шаг за шагом» — тогда модели лучше структурируют свои ответы. При помощи подобных фраз промпт-инженеры донастраивали LLM под конкретные задачи. Еще позднее некоторые модели начали самостоятельно генерировать для себя подобные фразы: перед ответом на вопрос ИИ как бы «планирует» свой ответ, пишет сценарий, как такой ответ должен строиться, и напоминает себе думать шаг за шагом.
Хотя ризонинг помогает в генерации обоснованных ответов, он может мешать, когда от модели требуется максимально оперативное реагирование на внешнюю среду. Особенно это проявляется в результатах работы ИИ-агентов, для которых внешняя среда — это интерфейсы разных приложений (например, веб-сайтов). В таком случае, как указывают исследователи Калифорнийского университета, модели с ризонингом часто игнорируют поступающую извне информацию.
На примерах задач разработки ПО исследователи выделяют три вида поведения, характерных для ИИ, который «потерялся» в собственных рассуждениях. Во-первых, это «аналитический паралич» — в этом состоянии модель постоянно создает длинные и сложные цепочки рассуждений, но не переходит непосредственно к решению поставленных пользователем задач; в таком случае она долго «рассуждает» о том, как написать программную функцию, но не выводит ни строчки кода. Во-вторых, это «непредсказуемые действия», когда модель генерирует несколько ответов сразу, не обращая внимания на реакцию среды на каждый из них; в таком случае модель предложит запустить свой код, сразу решит, что он работает правильно, и тут же предложит запускать следующие команды или функции. Наконец, ризонинговые модели могут прибегать к «преждевременному отключению» от выполняемой задачи; в таком случае модель либо сразу забрасывает ее, либо решает задачу только на уровне рассуждений, не приступая к реальным действиям (разработчик увидит сообщение от модели о том, что все уже решено, но ни строчки реального кода), либо модель сразу напишет, что с задачей справиться не может.
Подобные проблемы характерны для флагманских моделей o1-mini, DeepSeek-R1-32B и QwQ. Причем значительно меньше подобные ошибки допускали версии этих моделей без ризонинга: GPT-4o-mini, DeepSeek-V3, Qwen2.5-32B. Так, модель o1 с ризонингом успешно решает 29,1% задач разработки ПО из бенчмарка SWE-bench, но общая стоимость генерации при этом достигает $1400. Генерация всех ответов при помощи o1 без ризонинга обойдется в $400, но решит только 21,2% поставленных задач. Повысить точность результатов можно, если сгенерировать ответы дважды и каждый раз убирать те из них, в которых модель допускает ошибки: точность вырастет до 27,3%, а общая стоимость вычислений составит $800.
Ризонинг приводит к ошибкам из-за чрезмерно длинных цепочек рассуждений, в которых модель теряет фокус на исходной задаче, накапливая логические несоответствия. Это может быть связано с ограничениями контекстного окна (максимального числа слов, которые модель может считывать за раз), чрезмерно сложным синтаксисом или недостатком релевантных данных в обучении, что провоцирует «зацикливание» на второстепенных деталях. Также ризонинг может быть подвержен галлюцинациям, когда модель генерирует правдоподобные, но фактические неверные утверждения, которые затем использует в дальнейших рассуждениях, усугубляя ошибку. Еще одна проблема может быть связана со «смещением» (bias) в данных, на которых обучалась модель, что приводит к предвзятым рассуждениям.
В некоторых предметных областях данных значительно меньше, чем в остальных, из-за этого языковые модели не всегда, например, могут распознать сложные эмоциональные конструкции вроде иронии или сарказма, что в значительной мере ухудшает их понимание, а соответственно, и качество генерации ответов — в этом часто и заключается «смещение». Качество данных, используемых для обучения ИИ, имеет решающее значение: если в массиве информации содержатся неправильные логические цепочки или ошибочные рассуждения, то велика вероятность того, что модель просто воспроизведет их на аналогичных данных из запроса пользователя.
Однако использование ризонинга — это в любом случае развитие технологии; при правильном внедрении и обучении ИИ ризонинг расширяет его возможности: позволяет продлить нить мысли, убрать лишнее и добраться до сути, например решить логическую задачу или найти ошибку в программном коде. Ризонинг улучшает рекомендательные системы, так как он «чувствует» настроение пользователя, более глубоко анализирует его запрос и может ему предложить вариант ответа более высокого качества. От ризонинга отказываться не стоит, важно правильно его применять.
Ризонинг критичен для задач, требующих многошаговой логики, связанных с математикой, анализом текста. Он позволяет моделям «думать вслух», что повышает интерпретируемость решений; также этот функционал полезен для исследователя, который видит машинную логику и может ее менять при составлении промптов. Решить проблемы ризонинга можно за счет качественного написания промптов к модели и тщательной валидации рассуждений и действий, которые она совершает.
Для решения проблем ризонинга можно, например, применять стратегию «Первый правильный ответ» (FCS), это подходит для случаев ограниченных ресурсов, число ошибок снижается примерно на 50%. Также можно применять систему промптов, когда LLM сама себе создает подсказки для решения задачи, добавляет он.
Использование моделей без ризонинга оправдано для задач, где требуется быстрая обработка и генерация текста: например, для автоматического составления ответов на часто задаваемые вопросы (FAQ), создания шаблонных email-сообщений. Однако в сценариях, требующих логических цепочек или адаптации к новым условиям, применение более ресурсоемких моделей неизбежно.