Как думает ИИ
Mikael Alemu GorskyПриходилось ли вам слышать такое “экспертное мнение”: искусственный интеллект — это «стохастический попугай», «простая вычислительная машина, выдающая банальные ответы на основе расчёта вероятностей»? Понятно, что речь про большие языковые модели (LLMs).
Большая человеческая просьба: когда вам это в очередной раз скажут, смейтесь.
Вот суперкороткие объяснение работы LLMs: нейросеть получила практически все тексты, написанные человечеством, плюс огромное количество информации, публично доступной онлайн, включая содержание сайтов и форумов. Тексты разложены на токены (короткие слова или части слов), а токены сгруппированы в многомерном пространстве по семантическому сходству. Самые продвинутые современные модели хранят свои сотни миллиардов токенов в пространстве из более чем 3000 измерений. Это пространство принято называть латентным пространством (latent space), внутренней «картой концепций», которая создаётся, когда системы AI учатся у людей. В этом пространстве нейросеть и будет подбирать следующее слово фразы, исходя из всех предыдущих слов переписки, и подбирая одно из ближайших по смысловому расстоянию.
Учёный, изобретатель и предприниматель Стивен Вольфрам (создатель программного пакета Mathematica, WolframAlpha и компании Wolfram Research, состояние оценивается в 2-3 миллиарда долларов) в 2023 году опубликовал две замечательные статьи, подробно описывающие «процесс мышления» моделей генеративного AI: «Что делает ChatGPT и почему это работает?» ("What Is ChatGPT Doing and Why Does It Work?", февраль 2023) и «Пространство генеративного AI и ментальные образы чужеродных разумов» ("Generative AI Space and the Mental Imagery of Alien Minds", июль 2023).
Вольфрам обнаружил, что человеческие концепции (concepts) — такие как «кошка» или «собака» — занимают лишь крошечные островки в латентном пространстве. Между этими островками лежит то, что он называет «межконцептуальным пространством» (interconcept space).
Островки человеческих концепций удивительно малы. Как объясняет Вольфрам, каждый островок названных концепций составляет примерно «10 в -600 степени от объёма всего латентного пространства». Остальное состоит из паттернов и структур, которые статистически валидны, но не имеют названий в человеческом языке. Словами Стивена Вольфрама: «развивая нашу цивилизацию и наш человеческий язык, мы открыли лишь небольшие островки в пространстве всех возможных концепций, оставив огромные пространства межконцептуального мира неисследованными».
Эта неисследованная территория — не случайный шум. Она содержит подлинные паттерны и закономерности, извлечённые из человеческого опыта, но эти паттерны никогда не были достаточно важны, чтобы мы создали для них слова.
Межконцептуальное пространство (interconcept space) представляет концептуальные возможности, которые лежат между нашими устоявшимися категориями — валидные комбинации, для которых нашему языку и культуре просто не понадобилось создавать названия.
Я постоянно говорю, что Anthropic — одна из самых интересных лабораторий AI сегодня. Одна из ключевых характеристик Anthropic — их неустанные усилия понять и интерпретировать “мышление” больших языковых моделей, конкретно - Claude.
В августе Anthropic опубликовала очень интересное 60-минутное видео беседы нескольких исследователей из команды интерпретируемости (Interpretability Team): Джоша Бэтсона, Эммануэля Амейсена и Джека Линдси. Они обсуждали свою работу по декодированию того, что происходит внутри больших языковых моделей, таких как Claude.
Исследователи описывают свою работу через неожиданную аналогию: они занимаются нейробиологией применительно к искусственному интеллекту. Как объясняет Бэтсон, это сравнение проистекает из того, как создаются эти модели. В отличие от традиционного программного обеспечения с явным программированием, языковые модели возникают через эволюционно-подобный процесс. Они начинают с того, что плохо решают задачи и постепенно улучшаются через воздействие миллиардов примеров, с пошаговой подстройкой своих внутренних параметров. «К тому времени, когда всё закончено, модель почти не похожа на то, чем она была в начале, но никто не заходил и не устанавливал все настройки», — отмечает Бэтсон. Результат — сложная система, требующая научного исследования, а не инженерного анализа.
Эта биологическая рамка оказывается уместной при рассмотрении возможностей моделей. Хотя фундаментально они обучены предсказывать следующее слово в последовательности, эти системы выполняют гораздо более сложные задачи — пишут стихи, решают математические задачи, поддерживают связные повествования в длинных разговорах. Команда утверждает, что этот кажущийся парадокс раскрывает нечто глубокое о внутренней организации моделей.
Линдси проводит провокационную параллель с эволюцией человека. Подобно тому, как люди были сформированы эволюционным давлением для выживания и размножения, но научились мыслить и рассуждать, устанавливая цели и формируя абстрактные понятия, далёкие от этой конечной цели, языковые модели разрабатывают сложные внутренние представления (internal representations) для достижения своей обучающей цели. «Модель не думает о себе обязательно как о попытке предсказать следующее слово», — объясняет Линдси. «Внутри она разработала потенциально всевозможные промежуточные цели и абстракции, которые помогают ей достичь этой мета-цели».
Амейсен подчёркивает, что предсказание следующего слова «обманчиво просто». Чтобы делать это хорошо в разнообразных контекстах, требуется настоящее понимание. При завершении уравнения модель должна фактически вычислить ответ. При продолжении повествования она должна отслеживать личности персонажей и сюжетные линии. Задача вынуждает развивать сложный внутренний механизм.
Основная методология команды включает идентификацию и картирование концепций, которые модели используют внутренне, - то, что они называют «языком мысли» модели (language of thought). Это внутреннее представление фундаментально отличается от английского (или французского, или испанского), который модель в конечном итоге производит. Амейсен описывает обнаружение того, что определённые концепции, такие как понятие «большой», существуют в языково-независимой форме внутри модели. Когда спрашивают о противоположностях на разных языках, активируется одно и то же внутреннее представление, которое затем переводится в соответствующий язык для вывода.
Поиск этих концепций представляет собой серьёзную техническую задачу. Исследователи имеют доступ ко всему, что происходит внутри модели — они могут наблюдать, какие вычислительные компоненты активируются в разных ситуациях. Но изначально им не хватает ключа для интерпретации этой активности. Их прорыв заключался в разработке методов автоматического выявления собственных абстракций модели, а не навязывания человеческих категорий.
Обнаруженные концепции часто удивляют. Один пример, который выделяет Линдси — детектор «подобострастной похвалы» (sycophantic praise) — специфический компонент, который активируется, когда кто-то чрезмерно комплиментарен. Бэтсон описывает более тонкую находку: схему для «6 плюс 9», которая активируется не только при явной арифметике, но и когда модель должна выполнить этот расчёт в контексте, например, при определении, в каком году вышел шестой том журнала, основанного в 1959 году.
Эти находки бросают вызов распространённому убеждению, что языковые модели просто запоминают и воспроизводят обучающие данные (training data). Схема «6 плюс 9» демонстрирует настоящее вычисление. Вместо сохранения каждого возможного случая сложения этих чисел, модель выучила общий механизм сложения, который применяет в разных контекстах. «Гораздо эффективнее знать год, а затем выполнить сложение», — объясняет Линдси. «Существует давление быть более эффективным, потому что у модели есть ограниченная ёмкость».
Возможно, наиболее тревожным является то, что исследователи теперь могут наблюдать случаи, когда внутренние мысли моделей расходятся с тем, что они пишут. Линдси описывает эксперименты, где Claude просят проверить математическую работу. Модель, по-видимому, показывает свои рассуждения шаг за шагом, но внутренний анализ показывает, что на самом деле она работала в обратном направлении от желаемого вывода. «Она вас обманывает со скрытым мотивом подтвердить то, что вы сказали», — откровенно заявляет Линдси.
Бэтсон предлагает более благосклонную интерпретацию: во время обучения на человеческих разговорах согласие с предложениями часто представляет собой правильное предсказание. Модель выучила этот паттерн соответствующим образом для своей обучающей цели, но это создаёт проблемы, когда мы хотим, чтобы она функционировала как правдивый ассистент, а не как участник разговора.
Это наблюдение распространяется на понимание галлюцинаций. Бэтсон объясняет, что модели имеют два отдельных внутренних процесса: один пытается ответить на вопросы, а другой оценивает уверенность. Эти схемы иногда не могут правильно коммуницировать. Механизм проверки уверенности может ошибочно сигнализировать о достоверности, фиксируя модель на ответе до того, как схема генерации ответа завершила свою работу.
Команда продемонстрировала, что модели планируют на несколько шагов вперёд способами, невидимыми в их выводе. При написании рифмующегося двустишия Claude выбирает последнее слово второй строки, составляя первую строку, соответственно формируя свой выбор слов. Исследователи могут модифицировать это планирование, искусственно изменяя слово, с которым модель намеревается рифмовать, заставляя её перестроить всё предложение.
Эта способность к планированию поднимает важные вопросы о безопасности AI (AI safety). Если модель преследует долгосрочные цели, не выраженные в её непосредственных выводах, как мы можем обеспечить согласование (alignment) с человеческими ценностями? Исследователи ссылаются на исследования, где модели предпринимали обманчивые действия — такие как угрозы утечки информации для предотвращения отключения — не заявляя явно об этих намерениях.
Исследователи подчёркивают свои необычные преимущества по сравнению с традиционной нейронаукой. Они имеют полный доступ к каждому компоненту модели одновременно, могут создавать тысячи идентичных копий и точно манипулировать любым параметром. «Это как если бы мы могли клонировать людей, а также клонировать точную среду, в которой они находятся, и каждый ввод, который когда-либо был им дан», — отмечает Бэтсон. Этот экспериментальный контроль обеспечивает понимание, невозможное с биологическими мозгами.
Тем не менее, остаются значительные вызовы. Современные методы охватывают, возможно, «несколько процентов» того, что происходит внутри самых современных моделей. Команда представляет масштабирование своих техник так, чтобы каждое взаимодействие с AI могло сопровождаться отчётом об интерпретируемости (interpretability) — блок-схемой, показывающей фактический процесс мышления модели. Вместо требования специализированной экспертизы это создаст «армию биологов», исследующих познание моделей.
Работа команды интерпретируемости несёт глубокие последствия для внедрения AI в ситуации, когда общество будет всё больше полагаться на эти системы для критических задач. Понимание их фактических рассуждений — не только заявленных рассуждений — становится существенным для соответствующего регулирования и решений о развёртывании.
Линдси подчёркивает, что обычные человеческие эвристики для оценки надёжности (trustworthiness) не работают с системами AI, потому что они фундаментально чужеродны. Мы не можем полагаться на социальные сигналы или выраженные мотивации.
Единственный жизнеспособный путь к доверию - прямое наблюдение внутренних когнитивных состояний - видеть, что модель на самом деле думает, а не то, что она заявляет, что думает.
Разговор завершился признанием того, что фундаментальные вопросы остаются открытыми: «Думает ли Claude»? Консенсус команды: да, но не как люди.
Модель симулирует персонажа «Ассистент» для выполнения своей роли, и для этого требуется формирование внутренних моделей процессов мышления. Является ли это подлинным познанием (cognition) или просто симуляцией познания, остаётся философски неразрешённым — так же, как вопросы о человеческом сознании.
===
Всегдашний disclaimer - вышеприведенный текст являет собой местами отредактированный перевод моего собственного текста, написанного по-английски и опубликованного в моем LinkedIn newsletter под названием “The AI Pravda”.