对话小马智行CTO楼天城:让AI审视AI,提升世界模型的“精度”是下一步竞争的核心:近。早期会说真实世界能发生的事,它也能发生;但后来更多的是分布、博弈交互,以及对它的评价变得更符合糖心视频app免费下载真实世界。 界面新闻:精度是怎么衡量的? 楼天城:车的表现。它的不精确表现为车在真实世界的奇怪行为,这就是大家熟悉的维度。 我从最“灵魂”的一个问题说起,你确定你能看得出车开得好不好吗?原因很简单,
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!来源:界面新闻 记者:周末 伍洋宇 小马智行在2020年开始第一次技术转型。从模拟学习到强化学习,Robotaxi开始在“世界模型”的虚拟环境中自我演化,丢掉了模仿人类司机的包袱。支撑这一演化的虚拟训练环境,小马智行称之为“PonyWorld世界模型”。 世界模型由图灵奖得主杨立昆(Yann LeCun)推向AI届主流,本质上是一个动态的预测系统:给定当前环境的状态,对其施加特定动作后,模型能够推演出系统在下一时刻的演化结果。过去两年,世界模型在自动驾驶领域被快速采纳,并逐步延伸至具身智能领域。 但世界模型能否真正发挥作用,取决于一个关键变量:虚拟环境跟真实世界的接近性。小马智行CTO楼天城把这叫做“精度”。过去几年,提升世界模型的精度一直是小马智行最核心的工作,但它依赖工程师去发现问题、判断方向。 艰难探索两年后,小马智行的自动驾驶能力摸到了此前模仿学习的上限,逐渐向“比人更好”的标准靠近。但下一个问题随即出现:人不再能分辨车开得好坏了。 就像楼天城钟爱的AlphaGo故事——著名的“第37手”。与李在石对决的第二局中,专业解说员看到AlphaGo祭出的第37手差点摔下椅子,他们以为是电脑操作员的操作失误。一百步之后证明,那颗棋子正落在决定整盘棋局的位置。 楼天城说,当Robotaxi已经开得比人更好,他们也“看不懂了”;工程师给出的改进建议“已经不是效率的问题,是正负的差别”。4月10日发布的PonyWorld世界模型2.0,试图把这个判断权交还给AI自己:让AI发现自己哪里不够好,反过来告诉工程师需要补什么数据、改什么方向。 “看不懂”不会只是小马智行一家的问题。在“世界模型+强化学习”成为行业默识的技术方案之后,楼天城认为,提升世界模型与真实世界接近的“精度”是下一步竞争的核心,而让AI审视AI,天花板才能继续往上抬。 但自动驾驶的物理AI不像互联网时代的故事。直到今天,楼天城还在反问我们,“你们会接受我们的车是被强化学习训练的吗?”它还取决于无人驾驶出租车公司们能否说服大众体验并“相信”——相信自动驾驶的安全,相信无人驾驶出租车比人开得更好,以及,相信AI能带领AI驾驶走得更远。 而要让更多人坐上车、建立信任,前提是规模。2026年被小马智行视为一个“拐点”。在广深两座城市实现单车盈利后,小马智行试图通过轻资产模式快速扩充车队规模和运营范围。楼天城说,Robotaxi商业化的下半场已至,但还没看到世界模型精度的天花板。在规模竞赛与技术积累之间,小马开始加速奔跑起来。 在PonyWorld世界模型2.0发布之后,界面新闻对楼天城进行了专访。我们聊了聊世界模型如何提升精度、AI自我迭代的边界、商业化的拐点,以及工程师在未来的角色。 楼天城 图片来源:小马智行 以下是专访实录,约为12000字,界面新闻略作编辑: 1、世界模型的“精度” 界面新闻:小马的世界模型2.0特别提到了精度这个关键词,什么决定了精度? 楼天城:先解释为什么精度重要。世界模型会link到强化学习,意思是你把AI扔到一个自我演进的环境、自己变得更强。这跟传统的模仿学习收集人类数据去模仿人类行为不一样。强化学习是自己摸索,叫learning by practicing(在练习中学习)。 模仿学习的关键是数据量和数据质量。强化学习的关键是sim-to-real(从仿真到现实)的差别。 虚拟环境究竟跟真实世界有多接近就是你成功的关键,我们叫它精度,就是sim-to-real的损失。如果是在和真实世界非常不同的环境里,比如车是完全守规矩的,会对极端情况没有意识;如果车都是乱开的,真实状况里就开不了车了。不断提升世界精度,是让它跟真实世界更接近。早期会说真实世界能发生的事,它也能发生;但后来更多的是分布、博弈交互,以及对它的评价变得更符合真实世界。 界面新闻:精度是怎么衡量的? 楼天城:车的表现。它的不精确表现为车在真实世界的奇怪行为,这就是大家熟悉的维度。 我从最“灵魂”的一个问题说起,你确定你能看得出车开得好不好吗?原因很简单,今天小马的车平均驾驶能力是超过个人的。不光我看不出来,很多同事也没法给出好与坏的评价。看不懂AlphaGo下棋,第一反应是我看没看懂它很精妙的一步棋?看车也有这个问题。 世界模型2.0最直观的认识就是,发现车开得好不好、差在哪、为什么不好、怎么改进的过程由AI来完成。1.0的时候叫“模型训练模型”,做一个世界模型训练一个车载模型。今天发现模型做得好不好,也需要AI来完成了。 界面新闻:世界模型2.0的能力是怎么进步的? 楼天城:2.0达到的效果是两点。现在它精度提升的速度会比原来快很多。原来提升精度主要靠人去收集问题、收集反馈,做过应用开发的人都知道,这个过程是很花时间的。现在AI能更准确地发现哪些方向需要改进——人有时候判断改进方向和分析用户需求不够准,AI能分析得更准。所以精度提升的速度快了很多。 第二也很简单,就是精度的天花板糖心视频app免费下载被撑得很高。如果不通过AI来做这件事情,人本身的驾驶是有瑕疵的。靠一些人来分析世界模型精度的问题会限制它的天花板。 界面新闻:AI在这个过程中学的数据是什么? 楼天城:2.0不用做自我评价。2.0首先发现的是车辆行为看似不合理的地方,然后identify究竟是不是这个虚拟环境的精度导致发生这种行为。如果发生了,究竟哪些是、哪些不是,以及究竟是什么问题。是root cause(根本原因),比如说概率分布,还是场景还是组合的偏差?它可以帮我们发现这个问题,然后去改进精度。 从这个角度,某种程度上世界模型2.0是外部又多包了一层。原来是模型训练模型,现在我们是站在外部再去看这个事情究竟哪里做得不好。 界面新闻:现在L4在技术路
综上所述,在2026-05-20 06:35:02的发展中起到了关键作用。