Пространственный ИИ

AI, life and balance

Пространственный ИИ (spatial AI) – это технология на пересечении робототехники и компьютерного зрения, которая позволяет ИИ понимать окружающий мир и ориентироваться в нем. На стыке с пространственным ИИ существуют технологии виртуальной реальности, дополненной реальности и расширенной реальности.

Без умения ориентироваться в мире физических объектов ИИ ограничен его словесными описаниями, которые не передают всей полноты картины, а значит, ограничивают его эффективность. Так что пространственный ИИ – это очень важное направление исследований, за которым стоит следить.

В 2024 году Фей-Фей Ли (Fei-Fei Li), также известная как крестная мать ИИ, запустила стартап World Labs, который уже через четыре месяца с момента рождения оценивался в 1 млрд. долл.

Они делают потрясающие совершенно вещи, загляните в их блог. Там есть примеры 3D сцен, созданных из 2D изображений. По сценам можно прям походить, это очень впечатляет. Только представьте себе, как можно изменить процесс создания компьютерных игр с такими технологиями.

Конечно, пространственный ИИ полезен не только в играх, но и в автономных автомобилях, умных городах, робототехнике, планировании городской архитектуры, медицине – много где.

Для описания принципов работы пространственного ИИ я опираюсь на неплохую обзорную статью «Algorithmic Foundations of the Spatial AI Revolution A Comprehensive Analysis of 3D Perception and Reasoning Techniques». Работа весьма объемная, я здесь дам только микроскопическую выжимку ключевых (на мой взгляд) моментов. За подробностями рекомендую обращаться к оригиналу.

Первой важной вехой в развитии пространственного ИИ стало появление SLAM-алгоритмов (simultaneous localization and mapping – одновременная локализация и построение карты) в восьмидесятых-девяностых годах. Локализация – это определение положения объекта в пространстве и расстояния до него. До появления SLAM сначала строили карты и прокладывали маршрут, а потом пускали по ним, например, автономного робота. У этого подхода есть существенный недостаток: пока строили карту, маршрут и робота, местность могла измениться и маршрут мог стать непроходимым. SLAM же позволяет строить карту на месте: определить окружающие объекты, посчитать расстояния до них и проложить безопасный маршрут. Так, например, робот-пылесос работает, когда обходит ваши тапочки в процессе уборки.

Потом появились глубокие нейросети, в том числе в компьютерном зрении. Они позволили распознавать объекты с гораздо более высокой точностью.

Примерно в 2010-х годах компьютерное зрение, алгоритмы навигации, мощные графические процессоры и чувствительные современные датчики сложились в пространственный ИИ в современном понимании.

Еще один важный для пространственного ИИ прорыв – алгоритм обработки облаков точек (Point Cloud Processing). Он используется для работы с 3D-объектами. Каждый объект представляется в виде множества отдельных точек, для каждой из которых есть координаты, цвет и некоторые другие параметры. Собирать такую информацию умеют камеры глубины и лидары (LiDAR).

Среди ключевых задач пространственного ИИ выделяют

обнаружение объектов в 2D и 3D-сценах, разбиение объектов на отдельные сегменты для анализа;
оценку положения и ориентации объекта в пространстве;
создание 3D-изображений из 2D-изображений (3D-реконструкция – это как раз то, что делают в World Labs);
навигацию;
совмещение данных от разных датчиков.

В этой области помимо упомянутых выше задействовано немало интересных алгоритмов от всеми любимых трансформеров до графовых нейростей.

Про графовые нейросети будет отдельный пост, он стоит в плане аж на начало июня, но я верю, что вы дождетесь (вот так много тем у нас с вами для обсуждения).

Чуть раньше, во второй половине мая я буду рассказывать про NeRF (Neural Radiance Fields – нейронные поля излучения). Это одна из важнейших технологий в пространственном ИИ, она представляет каждый объект в пяти измерениях: координаты по длине, ширине и высоте (осям x, y, z), направление и плотность. NeRF как раз позволил создавать 3D из 2D.

Из направлений, которые сейчас больше всего волнуют исследователей в области пространственного ИИ, можно выделить следующие:

повышение эффективности, в том числе за счет нейромофных и квантовых вычислений;
разработка еще более точных сенсоров;
работа в изменяющихся средах (это когда вокруг робота-пылесоса еще бегает кот);
перенос алгоритмов на пользовательские устройства с небольшими процессорами;
разработка удобных способов взаимодействия человека с ИИ, в том числе через голосовое управление, управление жестами и дополненную реальность;
повышение надежности, прозрачности и защиты персональных данных пользователей.

Короче говоря, область интересная, активно растет и развивается. Если в нее пошла личность масштаба Фей-Фей Ли, то нам тоже надо.

Кстати, планирую пост про разных интересных людей, которые не так часто попадают в СМИ и не так известны непрофессиональному сообществу, но которые лучше всех понимают и буквально двигают развитие ИИ. В первой половине апреля будет.

Пространственный ИИ

Report Page