Роботы вдруг стали умнее. Что же изменилось?

Роботы вдруг стали умнее. Что же изменилось?

The Economist

ИИ — это не только ChatGPT.

"Что ты сейчас видишь?" — спрашивает человек у гуманоидного робота, стоящего перед столом. "Я вижу красное яблоко на тарелке в центре стола, сушилку с чашками и тарелкой, а также вас, стоящего неподалеку, положив руку на стол", — отвечает робот. "Отлично, можно мне что-нибудь съесть?" — говорит мужчина. "Конечно", — отвечает робот. Он разгибает руки, берет яблоко правой рукой, перекладывает его в левую, а затем передает человеку. Он просит робота объяснить свои действия. "Я дал вам яблоко, потому что это единственное съедобное блюдо, которое я мог предложить вам со стола", — отвечает робот.

Эта ситуация, представленная в видеоролике, выпущенном в марте робототехническим стартапом Figure, вызвала всеобщее изумление. В нем показан робот, который может вести разговор, распознавать предметы и производить манипуляции с ними, решать задачи и объяснять свои действия. И Figure не единственная компания, добившаяся столь впечатляющих результатов. После нескольких лет медленного прогресса роботы, похоже, становятся все умнее. Что же изменилось?

Волшебный ингредиент — искусственный интеллект (ИИ). Академические исследователи, стартапы и технологические гиганты используют достижения в области ИИ, такие как большие языковые модели (БЯМ), синтез речи и распознавание изображений, и применяют их в робототехнике. БЯМ известны как основа для чат-ботов вроде Chatgpt, но оказывается, что они могут помочь и настоящим роботам. "Алгоритмы могут переноситься", — говорит Питер Чен, руководитель компании Covariant, стартапа из Эмеривилля, Калифорния. "Именно это и способствует возрождению робототехники".

Робот из видеоролика Figure получил возможности распознавания речи и жутко реалистичного синтеза речи от компании OpenAI, которая является инвестором компании. OpenAI закрыла свое подразделение робототехники примерно в 2020 году, предпочтя вместо этого инвестировать в Figure и другие стартапы. Но теперь OpenAI одумалась и за последний месяц начала создавать новую команду робототехников — признак того, что настроения начали меняться.

Ключевым шагом на пути к применению ИИ в роботах стала разработка "мультимодальных" моделей — моделей ИИ, обученных на разных типах данных. Например, в то время как языковая модель обучается на большом количестве текста, "визуально-языковые модели" также обучаются на комбинациях изображений (неподвижных или движущихся) в сочетании с их соответствующими текстовыми описаниями. Такие модели изучают взаимосвязь между ними, что позволяет им отвечать на вопросы о том, что происходит на фото или видео, или генерировать новые изображения на основе текстовых подсказок.

Спасибо моделям VLAM

Новые модели, используемые в робототехнике, продвигают эту идею еще на один шаг вперед. Эти модели "зрение-язык-действие" (от англ. vision-language-action, VLAM) воспринимают текст и изображения, а также данные о присутствии робота в физическом мире, включая показания внутренних датчиков, степень поворота различных суставов и положение исполнительных механизмов (например, захватов или пальцев рук робота). Полученные модели могут отвечать на вопросы о месте действия, например, "видите ли вы яблоко?". Но они также могут предсказать, как должна двигаться рука робота, чтобы взять это яблоко, а также как это повлияет на то, как выглядит мир.

Другими словами, модели VLAM могут выступать в роли "мозга" для роботов с самыми разными телами — как гигантских стационарных рук на фабриках или складах, так и мобильных роботов с ногами или колесами. И в отличие от БЯМ, которые работают только с текстом, эти модели способны объединить несколько независимых картин мира — текст, изображения и показания датчиков. Такое построение восприятия модели в реальном мире значительно снижает уровень галлюцинаций (склонность ИИ-моделей выдумывать и ошибаться).

Направить все силы в локоть
Фото: Sereact

Компания доктора Чена Covariant создала модель под названием RFM-1, обученную на основе текста, изображений и данных, полученных от более чем 30 типов роботов. Ее программное обеспечение в первую очередь используется в сочетании с роботами-комплектовщиками на складах и в распределительных центрах, расположенных в пригородах, где земля дешевая, а рабочей силы не хватает. Компания Covariant не производит аппаратное обеспечение. Вместо этого ее программное обеспечение используется для модернизации "мозга" существующих роботов. "Мы можем ожидать, что интеллект роботов будет улучшаться со скоростью развития программного обеспечения, потому что мы открыли гораздо больше данных, на которых робот может обучаться", — говорит доктор Чен.

По словам Марка Тушера, соучредителя компании Sereact, стартапа в области робототехники из Штутгарта, использование новых моделей для управления роботами имеет ряд преимуществ по сравнению с предыдущими подходами. Одним из преимуществ является "zero-shot" (обучение, когда ставится задача без наличия примеров решения похожих проблем), что на техническом языке означает способность выполнять новые действия — например, "поднять желтый фрукт" — без специального обучения. Мультимодальная природа моделей VLAM наделяет роботов невиданной прежде способностью здраво оценивать окружающий мир, например, понимать, что бананы желтые и являются одним из видов фруктов.

"Чат для ботов": общение с ИИ

Еще одним преимуществом является "контекстное обучение" — возможность изменить поведение робота с помощью текстовых подсказок, а не сложного перепрограммирования. Профессор Ташер приводит пример складского робота, запрограммированного на сортировку посылок, который путался, когда в систему ошибочно попадали открытые коробки. Чтобы заставить его игнорировать их, когда-то потребовалось бы переобучить модель. "Сейчас мы даем ему команду — игнорировать открытые коробки, и он просто выбирает закрытые", — говорит профессор Ташер. "Мы можем изменить поведение нашего робота, дав ему подсказку, что просто невероятно". По сути, роботов могут программировать даже те, кто не является специалистом, используя обычный язык, а не компьютерный код.

Такие модели также могут отвечать вам. "Когда робот совершает ошибку, вы можете задать ему вопрос, и он ответит в текстовом виде", — рассказывает доктор Чен. Это полезно для отладки, поскольку, по словам доктора Ташера, новые инструкции можно получить, просто изменив подсказку робота. Вы можете сказать ему: "Это плохо, пожалуйста, в будущем делай это по-другому". И опять же, это облегчает работу с роботами для лиц, не являющихся специалистами.

Возможность спросить у робота, что он делает и почему, особенно полезна в области самоуправляемых автомобилей, которые на самом деле являются еще одним видом роботов. Wayve, стартап в области автономных автомобилей, базирующийся в Лондоне, создал систему VLAM под названием Lingo-2. Помимо управления автомобилем, модель может понимать текстовые команды и объяснять, чем обусловлены те или иные ее решения. "Она может давать пояснения во время вождения и позволяет нам отлаживать систему, давать ей инструкции или изменять ее поведение, чтобы она вела машину в определенном стиле", — говорит Алекс Кендалл, соучредитель Wayve. В качестве примера он приводит вопрос, заданный модели, о том, каково ограничение скорости, а также какие ориентиры (например, знаки и дорожная разметка) она использовала для формирования ответа. "Мы можем проверить, какой контекст она может распознать и что она может увидеть", — говорит он.

Как и в случае с другими видами ИИ, доступ к большим объемам обучающих данных имеет решающее значение. Компания Covariant, основанная в 2017 году, в течение многих лет собирала данные о своих существующих объектах, которые использовала для обучения RFM-1. Роботов также можно направлять самостоятельно, чтобы они несколько раз выполнили определенную задачу, и тогда модель сможет обобщить полученные данные. Этот процесс известен как "подражательное обучение". Доктор Ташер говорит, что для этого он использует контроллер для видеоигр, который порой очень неудобен.

Но это не единственный вариант. Гениальный исследовательский проект Стэнфордского университета под названием Mobile aloha генерировал данные для обучения робота основным бытовым задачам, таким как приготовление кофе, используя процесс, известный как телеоперация робототехники, иными словами, кукловодство. Исследователи стояли позади робота и перемещали его конечности, позволяя ему чувствовать, учиться и затем воспроизводить определенный набор действий. Такой подход, по их словам, "позволяет людям обучать роботов произвольным навыкам".

Инвесторы уже вкладывают средства в проект. Челси Финн, профессор Стэнфорда, курировавшая проект Mobile aloha, также является одним из основателей стартапа Physical Intelligence, который недавно привлек 70 миллионов долларов от спонсоров, включая OpenAI. Skild, робототехнический стартап, созданный на базе Университета Карнеги-Меллона, как считается, привлек в апреле $300 млн. Компания Figure, специализирующаяся на создании человекоподобных роботов, привлекла в феврале $675 млн. В мае Wayve привлекла $1,05 млрд, что стало крупнейшим раундом финансирования для европейского стартапа в области ИИ.

Доктор Кендалл из Wayve говорит, что растущий интерес к роботам отражает развитие "ИИ, воплощенного в теле", поскольку прогресс в области программного обеспечения для ИИ все чаще применяется к оборудованию, которое взаимодействует с реальным миром. "ИИ — это гораздо больше, чем чат-боты", — говорит он. "Через пару десятилетий люди будут думать об ИИ именно так: физические машины в нашем мире".

По словам исследователей, по мере совершенствования программного обеспечения для робототехники аппаратное обеспечение становится ограничивающим фактором, особенно когда речь идет о гуманоидных роботах. Но когда речь заходит о мозге робота, говорит доктор Чен, "наблюдается огромный прогресс в области развития интеллекта".

Report Page