顶部通栏广告

沙利文发布《2025年中国世界模型发展白皮书》

世界模型正走向复杂智能行为生成的关键过渡期,正成为推动物理AI与虚拟世界融合的关键基础设施,助力中国在全球AI竞争中占据领先地位。当前,世界模型在自动驾驶领域正从研发测试走向量产赋能,通过生成海量高保真场景,推动自动驾驶系统持续学习、自主验证并快速迭代优化,驱动L3/L4系统落地,大幅降低实车测试成本与时间。在具身智能领域,世界模型则作为合成数据引擎,破解物理交互数据短缺瓶颈,为机器人提供高效、安全的虚拟训练环境,加速其适应真实世界任务。两大应用均凸显世界模型通过仿真与生成,推动AI从感知向行动闭环演进的核心价值。

本报告聚焦“世界模型”(World Models)这一前沿人工智能技术,分析其发展现状、技术路径、市场格局及未来趋势。世界模型是理解现实世界动态 (包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测,加速物理AI的虚拟世界生成,生成可扩展的增强型数据,从而消除数据瓶颈,实现更高效的基础模型训练。本白皮书的研究目的在于全面梳理世界模型的发展历程、现状、核心技术及其在智能驾驶、具身智能中的应用,并通过对不同厂商能力的对比分析,探讨世界模型未来的发展趋势。

01

2025年世界模型:从感知现实到决策未来的AI跃迁

世界模型(World Models)作为一种生成式AI模型,其核心在于通过构建内部表征来理解真实世界的动态规律(包括物理特性与空间属性),并借助多模态输入(文本、图像、视频、运动数据等)生成视频内容,实现对现实环境物理属性的理解并通过生成环境及动作,从而模拟、指导及实施决策。World Labs创始人、斯坦福大学教授李飞飞指出“世界模型不仅应当感知和建模现实世界,还应具备展望可能存在的未来状态的能力,从而为决策提供指导。”然而在发展与现状方面,世界模型仍处于早期阶段,大多集中在感知层面的模拟与压缩,尚未真正实现“感知-预测-决策”一体化的稳定闭环。尽管在自动驾驶领域已有试点应用,但多依赖特定环境与强先验,不具备通用性与长期泛化能力。未来的发展方向将集中在三个方面:一是通过多模态输入增强对世界状态的理解;二是引入因果建模与可控生成机制,提升预测准确性与行为规划能力;三是将世界模型与具身智能系统深度融合,实现从“观察世界”到“理解并参与世界”的跃迁。

资料来源:沙利文分析,头豹研究院

02

不同世界模型厂商根据其自身战略与不同维度的技术优势,打造独特的世界模型能力及相关产品

世界模型的技术能力建立在四大支柱之上。因果推理能力 (Causal Reasoning): 使AI能够回答“如果A发生,B会怎样?”的假设性问题,理解动作与结果之间的深层因果关系,从而提升在动态环境中的自主决策能力。时空一致性 (Spatiotemporal Consistency): 解决传统视频生成中物体扭曲、变形的问题。世界模型通过长期记忆机制、潜在空间建模、对象中心表征等技术,在更高维度保持空间结构稳定和时间演化合理,生成稳定、连贯的视频序列。多模数据物理规则描述 (Physical Rule Description): 旨在模拟复杂的物理现象(如流体运动、物体碰撞)。世界模型预测的是遵循基本3D几何和物理规则的3D场景结构,而非简单像素,从而避免了“梦境般”的不真实感,为后续交互奠定基础。执行与实时反馈 (Execution & Real-time Feedback): 通过与强化学习结合,实现“感知→建模→规划→执行→感知更新→模型修正”的动态循环。低延迟的实时反馈是实际应用的基础,可通过轻量化技术与潜空间状态生成实现。

行业通常采用FID、FVD、帧率、时长和一致性等指标来量化评估其性能。不同世界模型厂商根据其自身战略与不同维度的技术优势,打造独特的世界模型能力及相关产品。目前,技术路径主要分为生成式与非生成式两类,国际厂商如英伟达(COSMOS)、谷歌(Genie3)和Meta(V-JEPA2)推出了领先模型,而商汤(绝影开悟) 凭借其“首个高分辨率与稀疏控制的多视世界模型”等创新,在技术指标对比中与这些国际巨头同台竞技,成为平台赋能型的代表厂商。

资料来源:沙利文分析,头豹研究院

03

当前超过80%自动驾驶算法使用世界模型进行辅助训练,世界模型推动自动驾驶系统持续学习、自主验证并快速迭代优化。

当前,超过80%自动驾驶算法使用世界模型进行辅助训练。世界模型能通过生成多层复杂要素结合的场景,将传统算法难以覆盖的“高动态+高不确定性”场景转化为可控问题,助力自动驾驶系统在产品性能和市场表现的双重升级。一方面,世界模型能够快速生成海量高保真场景,覆盖长尾与极端事件,显著增强系统鲁棒性与安全保障。另一方面,世界模型通过高效仿真替代真实路测,不再依赖昂贵标注和地图数据,在降低研发成本体系的同时推动产品快速迭代和市场拓展。其通过构建“真实数据→模型训练

→仿真场景验证→模型部署”的闭环反馈机制,并提供统一的潜在世界状态表征,从而为感知、预测、规划、控制等模块提供一致的认知语境。因此,世界模型能够推动自动驾驶系统持续学习、自主验证并快速迭代优化,从而显著提升端到端自动驾驶表现。世界模型是突破L4(如Robotaxi等)规模化部署瓶颈的加速器,是构成自动驾驶智能体走向类人认知与判断模式的关键基础。

资料来源:沙利文分析,头豹研究院

04

世界模型是重塑具身智能开发范式的核心引擎,为具身智能提供高质量、低成本、易扩展的合成数据生成路径,解决当前数据瓶颈,未来世界模型将成为具身智能的“认知核心”

具身智能代表着AI从纯粹的信息处理转向物理世界的交互。其核心痛点在于物理交互数据的“千倍级缺口”,缺口超过99%。具身智能所需的数据需要整合文本指令、 多视角视觉、关节运动轨迹及物理交互等多维信号,复杂度远超纯文本或单一视觉模态。采集真实的物理交互数耗时长成本高,使得技术研发速度严重滞后。而世界模型能生成视觉逼真、物理精确的合成数据,有效克服了传统仿真数据与真实世界之间的差异。同时能够大幅降低数据获取的时间和经济成本,并轻松实现数据规模的扩展。通过世界模型生成的海量、多样化合成数据进行训练,能显著提升具身智能模型在未知环境中的适应能力和任务执行成功率。

当前,自动驾驶领域的世界模型应用成熟度高于具身智能领域;而未来,世界模型将成为具身智能的“认知核心”。世界模型不仅为具身智能提供数据支持,更正在重塑其整个开发范式。世界模型作为平台的预测与生成引擎,无缝整合了从数据合成、算法训练到仿真验证的全流程,形成了一个高效的闭环迭代系统。通过提供集成化的工具链,消除了自行构建基础设施的复杂工程障碍,让开发者能专注于算法与应用创新,从而大幅提升研发效率。为“感知-决策-执行”全流程提供安全、可解释的闭环验证,通过精确模拟物理交互,系统性提升智能体的适应性和可靠性。深度整合开发工具链,消除了传统割裂流程带来的效率损耗,支持对主流模型进行高效的开发、训练和性能优化。

资料来源:沙利文分析,头豹研究院

05

案例分析:商汤‘开悟世界模型’综合能力在独立第三方及主机厂中处于领先地位

商汤“开悟”世界模型综合能力在独立第三方及主机厂中处于领先地位,可以媲美世界领先的世界模型厂商。在智能驾驶方面,商汤为自动驾驶厂商提供低成本海量仿真数据与极端场景覆盖,助力加速训练迭代与量产落地。与智己汽车共建端到端数据工厂,通过生成高风险长尾场景补足训练和验证数据,显著加快智驾量产落地。以及在上海自动驾驶实训场支撑数据到模型上车的全链路,规模化生成多视角仿真数据,降低数据成本并提升研发效率。

此外,商汤构建了以商汤“开悟”世界模型为核心引擎的悟能具身智能平台,实现视觉感知、精准导航与多模态交互,并通过端侧与云侧算力支撑,实现智能体在真实环境中的自主理解与行动。该平台是首个支持高分辨率与稀疏控制的多视世界模型,突破了具身智能数据合成技术瓶颈。同时展现了其领先的合成数据能力,支持一链生成场景多样性可控泛化场景要素可控耦合、任意编辑3D技术控制生成逼真轨迹。

作者: admin2

为您推荐

广告位

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

15205378440

在线咨询: QQ交谈

邮箱: 1719530292@qq.com

本站所有文字、图片、视频、音频等资料均来自互联网,不代表本站赞同其观点,本站亦不为其版权负责。相关作品的原创性、稳重陈述文字无法一一核实,如果您发现本网站上有侵犯您的合法权益的内容,请联系我们邮箱1719530292@qq.com,本站将立即予以删除
返回顶部