Вторая парадигма предобучения

Вторая парадигма предобучения

@ai_longreads

Джим Фэн размышляет о фундаментальном сдвиге в ИИ — от предсказания следующего слова к моделированию мира и его значении для робототехники и мультимодального ИИ.

Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.


Вторая парадигма предобучения

The Second Pre-training Paradigm Автор: Jim Fan Оригинальный текст

Предсказание следующего слова стало первой парадигмой pre-training (предобучения). Сейчас мы переживаем второй парадигмальный сдвиг: моделирование мира, или «предсказание следующего физического состояния». Мало кто понимает, насколько далеко идущий этот сдвиг, потому что, к сожалению, самый раскрученный сейчас сценарий использования моделей мира — это генерация видеошлака (а скоро — и игрового шлака). Я с полной уверенностью утверждаю: 2026 год станет первым годом, когда большие модели мира заложат реальный фундамент для робототехники и мультимодального ИИ в целом.

В данном контексте я определяю моделирование мира как предсказание следующего правдоподобного состояния мира (или последовательности состояний за более длительный период), обусловленного действием. Видеогенеративные модели — одна из реализаций этого подхода, где «следующие состояния» — это последовательность RGB-кадров (обычно 8–10 секунд, до нескольких минут), а «действие» — текстовое описание того, что нужно сделать. Обучение включает моделирование будущих изменений в миллиардах часов видеопикселей. По сути, видеомодели мира — это обучаемые физические симуляторы и движки рендеринга. Они улавливают контрфактуалы — более изящное слово для reasoning (рассуждений) о том, как будущее развернулось бы иначе при альтернативном действии. Модели мира принципиально ставят зрение на первое место.

VLM-ы (vision-language models), напротив, принципиально ставят на первое место язык. Начиная с первых прототипов (например, LLaVA, Liu et al. 2023), история в основном одна и та же: визуальная информация поступает через энкодер, а затем направляется в языковой backbone. Со временем энкодеры улучшаются, архитектуры становятся чище, зрение пытается стать более «нативным» (как в omni-моделях). Но оно по-прежнему остаётся гражданином второго сорта, затмеваемым мускулами, которые область годами наращивала для больших языковых моделей. Этот путь удобен. Мы знаем, что LLM-ы масштабируются. Наши архитектурные инстинкты, рецепты данных и ориентиры бенчмарков (VQA) — всё оптимизировано под язык.

Для физического ИИ 2025 год прошёл под знаком VLA (vision-language-action): прививаем декодер моторных действий робота поверх предобученного VLM-чекпоинта. На деле это скорее «LVA»: язык > зрение > действие, в порядке убывания приоритета. Опять же, этот путь удобен, потому что мы хорошо освоили рецепты VLM. Однако большинство параметров VLM-ов выделено под знания (например, «этот сгусток пикселей — бренд Coca-Cola»), а не под физику («если наклонить бутылку кока-колы, содержимое растечётся коричневой лужей, испачкает белую скатерть и испортит электродвигатель»). VLA-модели хорошо справляются с извлечением знаний по задумке, но перегружены не в тех местах. Многоступенчатая привитая конструкция также противоречит моему вкусу к простоте и элегантности.

Биологически зрение доминирует в нашей корковой обработке. Примерно треть коры головного мозга посвящена обработке пикселей — затылочные, височные и теменные области. Для языка, напротив, используется относительно компактная зона. Зрение — самый широкополосный канал, связывающий наш мозг, нашу моторику и физический мир. Оно замыкает «сенсомоторную петлю» — важнейшую петлю для робототехники, и для этого не нужен язык посередине.

Природа даёт нам экзистенциальное доказательство высоко ловкого физического интеллекта с минимальными языковыми способностями. Обезьяна.

Я видел, как обезьяны управляют гольф-картами и меняют тормозные колодки отвёртками, как человеческие механики. Их понимание языка — не более чем уровень BERT или GPT-1, но их физические навыки намного превосходят всё, на что способны наши лучшие роботы. У обезьян, возможно, нет хороших языковых моделей, но у них определённо есть надёжная ментальная картина «а что если»: как физический мир устроен и как он реагирует на их вмешательство.

Эра моделирования мира наступила. Она следует горькому уроку. Как Джитендра любит напоминать нам, зависимым от масштабирования: «Supervision — это опиум исследователя ИИ». Весь YouTube и появление умных очков будут захватывать сырые визуальные потоки нашего мира в масштабах, далеко превосходящих все тексты, на которых мы когда-либо обучали модели.

Мы увидим новый тип предобучения: следующие состояния мира могут включать не только RGB — 3D-пространственные движения, проприоцепция и тактильное восприятие только начинают развиваться.

Мы увидим новый тип reasoning (рассуждений): цепочка мыслей в визуальном пространстве, а не языковом. Можно решить физическую головоломку, симулируя геометрию и контакт, представляя, как части двигаются и сталкиваются, — без перевода в строки. Язык — это узкое место, подпорка, а не фундамент.

Мы столкнёмся с новым ящиком Пандоры открытых вопросов: даже при идеальной симуляции будущего — как декодировать моторные действия? Действительно ли реконструкция пикселей — лучшая целевая функция, или нам следует обратиться к альтернативным латентным пространствам? Сколько робототехнических данных нам нужно, и остаётся ли масштабирование телеоперирования ответом? И после всех этих упражнений — приближаемся ли мы наконец к моменту GPT-3 для робототехники?

Илья в итоге прав. AGI не конвергировало. Мы вернулись в эпоху исследований, и нет ничего более захватывающего, чем переосмысление первых принципов.


Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!

Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot

Report Page