世界模型:自动驾驶和机器人的想象引擎

模型 世界 预测 3D 像素
发布于 2026-06-09
1

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

2026年,深圳南山区一场暴雨。雨刮器疯狂摆动,摄像头画面糊成一片。路边一个打伞的大姐突然往马路中间迈了一步——她的伞被风吹翻,本能地往前追。

人类司机看到这一幕,脑子里会闪过一个画面:她要追伞,人会继续往前冲。刹车。

但传统的自动驾驶系统呢?它看到的是一帧画面:行人在路边。下一帧:行人向前移动0.3米。再下一帧:0.5米。它只知道"她在动",不知道"她为什么动",更不知道"她接下来要往哪跑"。

那天的系统没有刹住。

这就是世界模型要解决的问题。说白了,它想让AI拥有一种能力——在脑子里"想象"接下来会发生什么。就像你闭上眼也能大概画出卧室的布局,你看到一个人被绊了一下就能预判他会摔倒。这不是算出来的,是你脑子里有一个关于"物理世界怎么运转"的模型在默默运行。

一个棋手怎么下棋的

想理解世界模型,可以想想国际象棋。

配图

一个新手下棋,看到什么走什么。车在e线?那就推过去。马能跳?跳。每一步都是对当前棋盘的即时反应。

但大师不一样。大师落子之前,脑子里已经演算了十几步——如果我走这步,对手可能怎么应?如果他应这步,我再走那步……这个"在脑中模拟未来"的过程,就是世界模型在做的事。

传统自动驾驶更像那个新手:看到障碍物→刹车,看到车道线→转向。每一帧都在做即时反应。世界模型则是让系统变成棋手——在行动之前,先在内部"推演"未来几秒的世界会怎么变化,然后选最优解。

这个比喻后面还会回来。先记住:新手看眼前,大师看推演。

世界模型到底在干什么

定义其实不复杂。给定当前状态和一个动作,预测未来状态。就这么简单。

但"简单"两个字背后是一整座冰山。你给模型输入:一辆车在高速上、时速120、前方100米有辆卡车、正在下雨。然后你问模型:如果我踩刹车,3秒后世界长什么样?

模型要回答的不仅是"车会减速到多少",还有"路面打滑的话刹车距离会不会变长""后车会不会追尾""雨雾会不会遮挡视线"……所有这些物理规律的叠加,都要被"想象"出来。

这不比下棋容易。棋盘是有限的、离散的、规则完全确定的。真实世界是无限的、连续的、充满不确定性的。那个棋手的比喻在这里要修正一下——世界模型不是在下国际象棋,更像在下一种规则不完全明确的棋,而且棋盘每秒都在变。

三条路,同一个目的地

让AI学会"想象"未来,目前有三条主要路径。

第一条路:直接画出来。 给模型看大量视频,让它学会生成未来帧。你看一万段暴雨中的行车记录,总该学会"雨天路滑时车会打滑"吧?Wayve的GAIA-1就是这个思路——把自动驾驶视频喂进去,模型学会了生成逼真的驾驶场景。2026年初他们发布的GAIA-2更进一步,能在潜空间里做条件生成,给定"雨天""城市道路""行人突然横穿"这些条件,直接输出对应的未来视频。

听起来很酷,但问题也很明显:像素级的生成太贵了。生成一帧1080p画面需要的算力,够传统感知模型跑好几轮了。而且,你真的需要每一片雨滴都画出来吗?判断要不要刹车,其实只需要知道"那个人会不会继续往前冲"。

第二条路:不画画面,只抓本质。 Yann LeCun推的JEPA架构走的就是这条路。核心想法是:不要在像素层面预测未来,而是在一个抽象的潜空间里做预测。就像你不需要想象出每一片树叶的形状,只需要知道"秋天树叶会变黄掉下来"就够了。

配图

LeCun这几年一直在说,基于像素的生成是条弯路。他的论点是:世界模型应该学的是抽象表征,不是像素填充。I-JEPA在2023年就证明了不靠像素重建也能学好表征,到了2026年,基于JEPA思路的变体已经在机器人操作任务上展现出不错的泛化能力。

不过说实话,潜空间这条路目前最不成熟。抽象到什么程度?怎么保证潜空间里真的编码了物理规律而不是某种捷径?这些问题还没有定论。

第三条路:直接建模3D世界。 NeRF和3D Gaussian Splatting(3DGS)代表了这个方向——既然真实世界是三维的,为什么不直接建一个3D模型?给定一个场景的多角度观测,重建出3D结构,然后在3D空间里做推演。

Google的Genie 2就走这条路。2026年的版本已经能根据一张图片生成交互式3D世界,你可以在里面走动、移动物体,物理规律大致是自洽的。特斯拉FSD v13也融合了3D结构化表示——先重建周围环境的3D模型,再在这个模型上做轨迹规划。

这条路的好处是物理一致性天然比像素生成强——你建了一个3D的房子,房子不会突然消失或者穿透地面。坏处是,真实世界不是只有几何形状,还有力、摩擦、弹性变形……3D几何只是物理世界的骨架,不是全部。

我踩过的坑

2026年初我参与过一个机器人抓取项目——让机械臂在不同光照和背景下抓取桌面物体。我们用了基于像素的世界模型来预测抓取后的场景变化,想着"模型要是能预判杯子会不会滑,就不至于抓空"。

结果呢?模型确实学会了预测杯子被抓起来后的画面。但在一种情况下彻底崩溃:桌面上放了半透明的水杯。模型生成的未来帧里,水杯要么变成一坨模糊的色块,要么直接消失了。

后来我们换了潜空间方案,不再要求模型画出来,只要求它判断"抓取能否成功"。问题迎刃而解——其实模型不需要想象出水杯的每一个像素,只需要知道"半透明物体在光照变化下位置不变"就行。

这个教训让我理解了LeCun为什么一直唱衰像素生成。不过也不能说像素路线就没用——自动驾驶场景下,生成的视频可以用来做数据增强和仿真测试,这是潜空间方案做不到的。各有各的活法。

长期预测:越远越离谱

世界模型有个绕不开的难题:预测的时间越久,误差累积越严重。

想象你往湖面扔一颗石子。第一秒的涟漪你能准确预测——圆心扩散、波纹间距均匀。但到了第五秒,涟漪已经和岸边的反射波叠加在一起,乱成一锅粥。世界模型也是一样。预测1秒后的场景,可能只有5%的误差;预测5秒后,误差可能滚到30%以上。

配图

对自动驾驶来说,这个问题要命。城市道路上的决策通常需要看5-10秒的未来,但5秒后的预测已经不太靠谱了。

目前有几条思路在尝试解决。特斯拉FSD v13的做法是"短预测+高频更新"——不做长预测,只看1-2秒,但每100毫秒刷新一次。就像那个棋手不一次性推演十步,而是每走一步都重新算。Wayve GAIA-2则尝试用层次化预测:先预测粗粒度的"大趋势"(车会左转还是直行),再在细节上填充。

说实话,这个问题目前没有干净利落的解法。物理世界的蝴蝶效应是真实存在的,不是算法能消除的。

它真的"理解"物理吗

这个问题我想了很久。

2026年的世界模型确实能做不少事了。预测物体运动?没问题。生成物理自洽的场景?凑合能用。在仿真里做规划?也行。但"会预测"等于"理解"吗?

一个小孩看到球从桌上滚下来,他会说"球掉了"。他理解重力吗?他不懂牛顿定律,不知道F=mg,但他知道东西会往下掉。你说这算不算"理解"?

世界模型现在大概就处在这个阶段。它能从海量数据中学到"球会往下掉""车在湿滑路面上刹不住""人被绊了一下会往前扑"——但这些知识是统计意义上的关联,不是因果层面的理解。给它一个训练数据里从没出现过的场景——比如月球上扔球——它大概率会预测错,因为月球的重力只有地球的六分之一,而这个统计规律它没见过。

LeCun说JEPA架构的目标是学到更抽象的物理表征,某种程度上是在追求从统计关联到因果理解的跨越。但目前离这个目标还有很长的路。

我不确定世界模型最终能不能真正"理解"物理。也许这个问题本身就不重要——就像那个棋手,他不需要理解每步棋背后的数学证明,只需要下对就够了。但"下对"和"理解"之间的鸿沟,在某些极端情况下会暴露出来。

想象力的边界

回到暴雨中的那个场景。

如果当时那辆车搭载了一个成熟的世界模型,故事会怎样?系统看到行人追伞,在内部推演:伞被吹走→行人注意力在伞上→大概率继续往前冲→2秒后进入车道→需要立即刹车。整个过程不到0.1秒。

这就是世界模型的承诺:让AI拥有想象力,能在行动之前"看到"未来。

2026年的进展确实不少。GAIA-2在驾驶场景里做条件生成,Genie 2能创建可交互的3D世界,FSD v13把世界模型塞进了端到端架构。三条路径各有长短,都在往前跑。

但我也清楚,现在的世界模型离真正的"理解物理世界"还有距离。它更像一个阅片无数的老司机——见过太多类似的场景,所以能凭经验预判。可一旦遇到没见过的情况,经验就失灵了。

那个暴雨中的行人,最终只是擦着车头跑过去了。没有事故,只是一个虚惊。但那三秒——从行人迈步到系统做出反应的三秒——让我意识到,没有想象力的自动驾驶,终究是在盲人摸象。

棋手不看眼前,看推演。世界模型想让AI学会这招。能不能学会,什么时候学会,我不知道。

但我知道,当那个大姐追着伞冲出来的时候,她脑子里想的是伞——不是车。而一辆真正智能的车,应该能想到她在想什么。

这才是想象力的意义。不只是预测轨迹,是理解意图。


Python学习杂记

探索运筹优化、机器学习、AI 和数据可视化的奥秘及其落地应用

280 篇文章
浏览 353.8K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线