AI教母李飞飞征战空间智能

【#深度解读】

从 2009 年创建 ImageNet 开启深度学习时代，到如今执掌创业公司攻坚空间智能，被誉为“AI 教母”的李飞飞引领着 AI 浪潮。本文通过纪实访谈串联 ImageNet 诞生背后的大胆赌注、计算机视觉从识别到生成的飞跃，以及李飞飞为何将空间智能视为 AGI 的“最后一公里”。文章还将揭秘她从学界转身投身创业的契机，以及如何组建顶尖团队共建 3D 世界模型，折射出这位 AI 女杰对开放合作与人才培养的独到见解。

人物介绍：

李飞飞（Fei-Fei Li） – 斯坦福大学计算机科学教授，被誉为“AI 教母”，ImageNet 项目发起人，World Labs 创始人。
安德烈·卡帕斯（Andrej Karpathy） – 李飞飞的斯坦福博士生，计算机视觉和深度学习专家，曾任特斯拉 Autopilot 视觉负责人、OpenAI 研究员。
杰弗里·辛顿（Geoffrey Hinton） – 深度学习先驱，“深度学习三巨头”之一，2012 年率领学生团队凭借 AlexNet 赢得 ImageNet 竞赛冠军，引爆深度学习热潮。
贾斯汀·约翰逊（Justin Johnson） – 李飞飞前博士生，计算机视觉学者，实时风格迁移算法先行者，World Labs 联合创始人。
本·米尔登霍尔（Ben Mildenhall） – 计算机图形与视觉领域研究员，NeRF（神经辐射场）技术发明者，World Labs 联合创始人。
克里斯托夫·拉斯纳（Kristof Lassner） – 3D 视觉与渲染技术专家，World Labs 联合创始人。

ImageNet 的诞生

2007 年，李飞飞赴普林斯顿大学任助理教授；彼时 AI 领域还是一片数据荒漠，计算机视觉算法屡遭瓶颈。她立志让机器“看见”世界，却苦于缺乏大规模数据支撑，算法难以举一反三地学习。李飞飞回忆道：“算法要具备泛化能力，就离不开大量数据，可那时根本没有数据。”为打破僵局，她和学生孤注一掷，从互联网抓取了数千万张图片，构建涵盖上万类别的庞大数据库 ImageNet，并将其向全球开放，用于举办年度 ImageNet 挑战赛，吸引顶尖人才同台比拼。ImageNet 的开创性工作现已被全世界引用超过 8 万次，成为深度学习时代的奠基石之一。终于在 2012 年，辛顿团队凭借卷积神经网络 “AlexNet” 将图像识别错误率骤降一半，引爆了深度学习视觉革命的序幕。

从图像识别到图像生成

深度学习浪潮兴起后，计算机视觉领域在攻克图像识别任务后，很快将目光投向更具创造力的图像生成。2014 年前后，对抗生成网络（GAN）等新技术横空出世，让 AI “造”图成为可能的新方向。李飞飞曾半开玩笑地对学生安德烈·卡帕斯建议：“要不让 AI 试试根据一句话生成一张图？”这一异想天开的点子在当时连身边人都觉得不可思议，安德烈闻言只得笑着摆手：“这我可干不了。”然而短短几年后，AI“文生图”已成现实，各类模型可以依据文字描述合成栩栩如生的图像。李飞飞感慨：“AI 技术在十多年间取得了令人难以置信的飞跃，我觉得自己是这个世界上最幸运的人，亲历了 AI 从寒冬走向繁荣的全过程。”

空间智能为何是 AGI 的“最后一公里”

在语言大模型横扫各领域之际，李飞飞将目光投向机器对物理空间的认知能力。所谓“空间智能”，就是让 AI 具备在三维世界中感知、理解和行动的能力，包括重建现实环境和生成虚拟场景。李飞飞喜欢引用生命进化史来说明视觉与智能的关系：约 5.4 亿年前生物首次进化出“眼睛”后，生命才进入智力飞跃的军备竞赛。类比来看，让 AI 真正“看见”三维世界，将成为人工智能迈向更高形态的关键一步。李飞飞笃定地表示：“没有空间智能，通用人工智能就不完整，而我决心要攻克这个难题。”相较于处理一维的语言，理解立体的真实世界要复杂得多。AI 需要从二维图像中推断三维结构，并遵循物理法则和时间维度，这使空间智能成为当今 AI 领域最具挑战性的前沿课题。也因此，李飞飞将其视为迈向 AGI 的关键“最后一公里”。

从教授到创业者的过渡

2023 年，身为斯坦福终身教授的李飞飞做出了一个大胆选择：离开校园舒适圈，亲自创办空间智能初创公司 World Labs，将研究愿景投入商业实践。对许多学者而言，这样的人生转轨充满未知，但对李飞飞来说，走出象牙塔投身一线研发反而让她如鱼得水。正如李飞飞直言：“我太喜欢当创业者了！忘掉过去的成就和他人的看法，埋头苦干把东西做出来——这就是我的舒适区。”她希望借助创业平台更快地将前沿技术落地，直击那个令她魂牵梦萦的终极难题——空间智能。

招募顶尖人才攻克 3D 世界建模

李飞飞在创业时网罗了一支豪华阵容，与她共同攻坚 3D 世界建模这一前沿课题。World Labs 的创始团队云集了三位年轻的视觉 AI 顶尖人才——前博士生贾斯汀·约翰逊、NeRF 技术发明者本·米尔登霍尔、3D 重建与渲染专家克里斯托夫·拉斯纳。其中，贾斯汀擅长实时图像风格迁移，米尔登霍尔因提出 NeRF 技术而声名鹊起，拉斯纳则深耕 3D 渲染与重建。李飞飞感叹：“我这辈子最幸运的，就是无论多大年纪，总能和最优秀的年轻人一起共事。”在她看来，要破解视觉智能的终极难题，正需要这样一支“梦之队”的通力合作，“我们就是要联手攻坚当前 AI 领域最难的课题。”

AI 的开放性与人才观

回顾李飞飞的职业历程，开放共享与群策群力始终是她推进 AI 发展的法宝之一。早在 ImageNet 项目伊始，她就坚持无偿开放数据并设置竞赛，吸引全球最优秀的头脑共同提升算法水平。李飞飞回忆道：“我们从一开始就选择了开源，把 ImageNet 数据集向整个研究界开放。同时还举办了 ImageNet 挑战赛，希望全世界最聪明的学生和研究人员都来参与。”正是这种开放精神催生了 2012 年载入史册的 “AlexNet 时刻”，加速了深度学习革命的到来。无论在学术还是业界，她始终注重凝聚和培养人才——从指导学生在顶会上崭露头角，到携手青年俊才创业攻关。此外，李飞飞还热心推动 AI 人才的多元化培养，联合创办公益项目 AI4ALL，旨在为更多不同背景的年轻学生创造 AI 启蒙机会。她以实际行动践行着开放协作的人才观，坚信人工智能的未来属于每一个勇于探索的人。

话题标签： #AI #AGI #计算机视觉 #空间智能 #李飞飞 #ImageNet #创业

**➜ 行动号召：**点赞、关注、转发，并在评论区分享看法，让更多人加入讨论！

https://x.com/BesnowCloud/status/1940680425481162970