Пространственный ИИ
AI, life and balanceПространственный ИИ (spatial AI) – это технология на пересечении робототехники и компьютерного зрения, которая позволяет ИИ понимать окружающий мир и ориентироваться в нем. На стыке с пространственным ИИ существуют технологии виртуальной реальности, дополненной реальности и расширенной реальности.
Без умения ориентироваться в мире физических объектов ИИ ограничен его словесными описаниями, которые не передают всей полноты картины, а значит, ограничивают его эффективность. Так что пространственный ИИ – это очень важное направление исследований, за которым стоит следить.
В 2024 году Фей-Фей Ли (Fei-Fei Li), также известная как крестная мать ИИ, запустила стартап World Labs, который уже через четыре месяца с момента рождения оценивался в 1 млрд. долл.
Они делают потрясающие совершенно вещи, загляните в их блог. Там есть примеры 3D сцен, созданных из 2D изображений. По сценам можно прям походить, это очень впечатляет. Только представьте себе, как можно изменить процесс создания компьютерных игр с такими технологиями.
Конечно, пространственный ИИ полезен не только в играх, но и в автономных автомобилях, умных городах, робототехнике, планировании городской архитектуры, медицине – много где.
Для описания принципов работы пространственного ИИ я опираюсь на неплохую обзорную статью «Algorithmic Foundations of the Spatial AI Revolution A Comprehensive Analysis of 3D Perception and Reasoning Techniques». Работа весьма объемная, я здесь дам только микроскопическую выжимку ключевых (на мой взгляд) моментов. За подробностями рекомендую обращаться к оригиналу.
Первой важной вехой в развитии пространственного ИИ стало появление SLAM-алгоритмов (simultaneous localization and mapping – одновременная локализация и построение карты) в восьмидесятых-девяностых годах. Локализация – это определение положения объекта в пространстве и расстояния до него. До появления SLAM сначала строили карты и прокладывали маршрут, а потом пускали по ним, например, автономного робота. У этого подхода есть существенный недостаток: пока строили карту, маршрут и робота, местность могла измениться и маршрут мог стать непроходимым. SLAM же позволяет строить карту на месте: определить окружающие объекты, посчитать расстояния до них и проложить безопасный маршрут. Так, например, робот-пылесос работает, когда обходит ваши тапочки в процессе уборки.
Потом появились глубокие нейросети, в том числе в компьютерном зрении. Они позволили распознавать объекты с гораздо более высокой точностью.
Примерно в 2010-х годах компьютерное зрение, алгоритмы навигации, мощные графические процессоры и чувствительные современные датчики сложились в пространственный ИИ в современном понимании.
Еще один важный для пространственного ИИ прорыв – алгоритм обработки облаков точек (Point Cloud Processing). Он используется для работы с 3D-объектами. Каждый объект представляется в виде множества отдельных точек, для каждой из которых есть координаты, цвет и некоторые другие параметры. Собирать такую информацию умеют камеры глубины и лидары (LiDAR).
Среди ключевых задач пространственного ИИ выделяют
- обнаружение объектов в 2D и 3D-сценах, разбиение объектов на отдельные сегменты для анализа;
- оценку положения и ориентации объекта в пространстве;
- создание 3D-изображений из 2D-изображений (3D-реконструкция – это как раз то, что делают в World Labs);
- навигацию;
- совмещение данных от разных датчиков.
В этой области помимо упомянутых выше задействовано немало интересных алгоритмов от всеми любимых трансформеров до графовых нейростей.
Про графовые нейросети будет отдельный пост, он стоит в плане аж на начало июня, но я верю, что вы дождетесь (вот так много тем у нас с вами для обсуждения).
Чуть раньше, во второй половине мая я буду рассказывать про NeRF (Neural Radiance Fields – нейронные поля излучения). Это одна из важнейших технологий в пространственном ИИ, она представляет каждый объект в пяти измерениях: координаты по длине, ширине и высоте (осям x, y, z), направление и плотность. NeRF как раз позволил создавать 3D из 2D.
Из направлений, которые сейчас больше всего волнуют исследователей в области пространственного ИИ, можно выделить следующие:
- повышение эффективности, в том числе за счет нейромофных и квантовых вычислений;
- разработка еще более точных сенсоров;
- работа в изменяющихся средах (это когда вокруг робота-пылесоса еще бегает кот);
- перенос алгоритмов на пользовательские устройства с небольшими процессорами;
- разработка удобных способов взаимодействия человека с ИИ, в том числе через голосовое управление, управление жестами и дополненную реальность;
- повышение надежности, прозрачности и защиты персональных данных пользователей.
Короче говоря, область интересная, активно растет и развивается. Если в нее пошла личность масштаба Фей-Фей Ли, то нам тоже надо.
Кстати, планирую пост про разных интересных людей, которые не так часто попадают в СМИ и не так известны непрофессиональному сообществу, но которые лучше всех понимают и буквально двигают развитие ИИ. В первой половине апреля будет.