对话小马智行CTO楼天城：让AI审视AI，提升世界模型的“精度”是下一步竞争的核心

对话小马智行CTO楼天城：让AI审视AI，提升世界模型的“精度”是下一步竞争的核心：近。早期会说真实世界能发生的事，它也能发生；但后来更多的是分布、博弈交互，以及对它的评价变得更符合糖心视频app免费下载真实世界。界面新闻：精度是怎么衡量的？楼天城：车的表现。它的不精确表现为车在真实世界的奇怪行为，这就是大家熟悉的维度。我从最“灵魂”的一个问题说起，你确定你能看得出车开得好不好吗？原因很简单，

图表：对话小马智行CTO楼天城：让AI审视AI，提升世界模型的“精度”是下一步竞争的核心的核心数据分布

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！来源：界面新闻记者：周末伍洋宇小马智行在2020年开始第一次技术转型。从模拟学习到强化学习，Robotaxi开始在“世界模型”的虚拟环境中自我演化，丢掉了模仿人类司机的包袱。支撑这一演化的虚拟训练环境，小马智行称之为“PonyWorld世界模型”。世界模型由图灵奖得主杨立昆（Yann LeCun）推向AI届主流，本质上是一个动态的预测系统：给定当前环境的状态，对其施加特定动作后，模型能够推演出系统在下一时刻的演化结果。过去两年，世界模型在自动驾驶领域被快速采纳，并逐步延伸至具身智能领域。但世界模型能否真正发挥作用，取决于一个关键变量：虚拟环境跟真实世界的接近性。小马智行CTO楼天城把这叫做“精度”。过去几年，提升世界模型的精度一直是小马智行最核心的工作，但它依赖工程师去发现问题、判断方向。艰难探索两年后，小马智行的自动驾驶能力摸到了此前模仿学习的上限，逐渐向“比人更好”的标准靠近。但下一个问题随即出现：人不再能分辨车开得好坏了。就像楼天城钟爱的AlphaGo故事——著名的“第37手”。与李在石对决的第二局中，专业解说员看到AlphaGo祭出的第37手差点摔下椅子，他们以为是电脑操作员的操作失误。一百步之后证明，那颗棋子正落在决定整盘棋局的位置。楼天城说，当Robotaxi已经开得比人更好，他们也“看不懂了”；工程师给出的改进建议“已经不是效率的问题，是正负的差别”。4月10日发布的PonyWorld世界模型2.0，试图把这个判断权交还给AI自己：让AI发现自己哪里不够好，反过来告诉工程师需要补什么数据、改什么方向。 “看不懂”不会只是小马智行一家的问题。在“世界模型+强化学习”成为行业默识的技术方案之后，楼天城认为，提升世界模型与真实世界接近的“精度”是下一步竞争的核心，而让AI审视AI，天花板才能继续往上抬。但自动驾驶的物理AI不像互联网时代的故事。直到今天，楼天城还在反问我们，“你们会接受我们的车是被强化学习训练的吗？”它还取决于无人驾驶出租车公司们能否说服大众体验并“相信”——相信自动驾驶的安全，相信无人驾驶出租车比人开得更好，以及，相信AI能带领AI驾驶走得更远。而要让更多人坐上车、建立信任，前提是规模。2026年被小马智行视为一个“拐点”。在广深两座城市实现单车盈利后，小马智行试图通过轻资产模式快速扩充车队规模和运营范围。楼天城说，Robotaxi商业化的下半场已至，但还没看到世界模型精度的天花板。在规模竞赛与技术积累之间，小马开始加速奔跑起来。在PonyWorld世界模型2.0发布之后，界面新闻对楼天城进行了专访。我们聊了聊世界模型如何提升精度、AI自我迭代的边界、商业化的拐点，以及工程师在未来的角色。楼天城图片来源：小马智行以下是专访实录，约为12000字，界面新闻略作编辑： 1、世界模型的“精度” 界面新闻：小马的世界模型2.0特别提到了精度这个关键词，什么决定了精度？楼天城：先解释为什么精度重要。世界模型会link到强化学习，意思是你把AI扔到一个自我演进的环境、自己变得更强。这跟传统的模仿学习收集人类数据去模仿人类行为不一样。强化学习是自己摸索，叫learning by practicing（在练习中学习）。模仿学习的关键是数据量和数据质量。强化学习的关键是sim-to-real（从仿真到现实）的差别。虚拟环境究竟跟真实世界有多接近就是你成功的关键，我们叫它精度，就是sim-to-real的损失。如果是在和真实世界非常不同的环境里，比如车是完全守规矩的，会对极端情况没有意识；如果车都是乱开的，真实状况里就开不了车了。不断提升世界精度，是让它跟真实世界更接近。早期会说真实世界能发生的事，它也能发生；但后来更多的是分布、博弈交互，以及对它的评价变得更符合真实世界。界面新闻：精度是怎么衡量的？楼天城：车的表现。它的不精确表现为车在真实世界的奇怪行为，这就是大家熟悉的维度。我从最“灵魂”的一个问题说起，你确定你能看得出车开得好不好吗？原因很简单，今天小马的车平均驾驶能力是超过个人的。不光我看不出来，很多同事也没法给出好与坏的评价。看不懂AlphaGo下棋，第一反应是我看没看懂它很精妙的一步棋？看车也有这个问题。世界模型2.0最直观的认识就是，发现车开得好不好、差在哪、为什么不好、怎么改进的过程由AI来完成。1.0的时候叫“模型训练模型”，做一个世界模型训练一个车载模型。今天发现模型做得好不好，也需要AI来完成了。界面新闻：世界模型2.0的能力是怎么进步的？楼天城：2.0达到的效果是两点。现在它精度提升的速度会比原来快很多。原来提升精度主要靠人去收集问题、收集反馈，做过应用开发的人都知道，这个过程是很花时间的。现在AI能更准确地发现哪些方向需要改进——人有时候判断改进方向和分析用户需求不够准，AI能分析得更准。所以精度提升的速度快了很多。第二也很简单，就是精度的天花板糖心视频app免费下载被撑得很高。如果不通过AI来做这件事情，人本身的驾驶是有瑕疵的。靠一些人来分析世界模型精度的问题会限制它的天花板。界面新闻：AI在这个过程中学的数据是什么？楼天城：2.0不用做自我评价。2.0首先发现的是车辆行为看似不合理的地方，然后identify究竟是不是这个虚拟环境的精度导致发生这种行为。如果发生了，究竟哪些是、哪些不是，以及究竟是什么问题。是root cause（根本原因），比如说概率分布，还是场景还是组合的偏差？它可以帮我们发现这个问题，然后去改进精度。从这个角度，某种程度上世界模型2.0是外部又多包了一层。原来是模型训练模型，现在我们是站在外部再去看这个事情究竟哪里做得不好。界面新闻：现在L4在技术路

综上所述，在2026-05-20 06:35:02的发展中起到了关键作用。

对话小马智行CTO楼天城：让AI审视AI，提升世界模型的“精度”是下一步竞争的核心

深度专题

第十六届北京国际电影节游戏·动漫·电影单元呈现破次元视听盛宴

实时快讯

数据显示，霍尔木兹海峡航运交通实际上仍处于停滞状态

2026海峡两岸“三月三”畲族文化周在福建上杭启幕

内容矩阵