探索｜“物理AI”站上新风口，世界模型成为核心“引擎”

物理AI今年成为全球人工智能领域的全新热点。

6月初，在奥地利维也纳举行的国际机器人与自动化会议（ICRA 2026）上，研讨的焦点在于如何让具身智能跨越“从语义理解到物理执行”；英伟达推出面向物理AI的开放世界基础模型NVIDIA Cosmos 3，并发起全球开发者协作联盟，共同推动下一代世界模型（World Model，WM）技术发展。

前沿科技会议、科技巨头缘何纷纷将目光投向这一赛道？物理AI和生成式AI、代理AI（智能体）有何区别？世界模型的研究为何重要？当下物理AI行业的发展现状、机遇与挑战又是什么？我们采访了江苏省人工智能学会的三位专家。

世界模型，物理AI的核心引擎

在ICRA 2026相关活动AGIBOT世界挑战赛中，来自全球多个国家及地区的336支顶尖团队逐鹿世界模型（WM）赛道，最终决出10支优胜战队。中国科学院工业人工智能研究所物理智能团队的世界模型PAI-WM荣获亚军，并在衡量物理环境理解能力的核心指标——“场景一致性”得分上，以显著优势夺得第一。

“物理AI是人工智能长期演进的必然结果，世界模型则是物理AI发展的核心引擎。”中国科学院工业人工智能研究所物理智能团队负责人徐凯说。

他解释道，现在大家较为熟悉的各种判别式AI、生成式AI、智能体等，主要运行在虚拟数字世界，包括人脸识别、聊天机器人、文生图等应用产品等；而物理AI的本质，是为机器人、智能装备、自动驾驶汽车等硬件赋予智能，使其实现对现实世界的感知、理解、预判与自主交互。当下行业聚焦物理AI，是顺应智能技术向实体场景延伸的需求。

世界模型成为热门赛道，是因为具身智能大模型碰壁，倒逼行业寻找新方向。2022年至2023年，ChatGPT等生成式AI大模型爆火后，行业很快形成了“大数据+大算力”驱动通用智能的信念。很快，这种对规模的信仰就延伸到了最具市场前景的机器人领域。业内尝试将类似的模式复刻到机器人领域，一个典型代表就是视觉-语言-动作模型（Vision-Language-Action Model，VLA）。但实践证明，单纯套用“生成式AI大模型+模仿学习”的路径行不通：模型在视觉识别、语言理解等方面表现出很好的智能，但在实体的动作执行环节能力严重不足。

“世界模型的核心能力是预判与推演，这也是物理AI区别于传统AI的关键。”徐凯举例道，人类在打乒乓球时，不会全程紧盯着球，而是根据运动轨迹预判落点，再做出接球动作，这种预判能力，正是源于人脑对物理规律的认知。世界模型就是要让人工智能理解、模拟并预判物理世界的运转过程。

目前，主流的世界模型以视频生成路线为主，通过单帧画面预判后续画面变化，比如根据手持水杯翻转的画面，推演出水杯倾斜、水流流出的画面，这意味着模型已经初步掌握重力、流体等基础物理规律。不过现阶段的世界模型仍存在明显短板，容易产生“物理幻觉”、生成违背客观物理规则的内容，比如画面中物体凭空消失、水流穿透桌面等，这也是后续技术迭代需要重点解决的问题。

“简单而言，物理AI就是能够感知和理解真实物理世界，能够模拟和预测真实物理世界的运转过程，能够在真实物理世界中交互和完成各种任务的人工智能模型与系统。”徐凯说。

多种路径，破解动作数据采集难题

“物理AI并非凭空出现的全新技术，相关研究如物理仿真、具身智能与机器人学等均由来已久，只是物理AI作为这些技术的集大成者，近年来被业界定义为人工智能发展的下一个重要浪潮，标志着人工智能从数字智能向物理交互的范式变革。”南京大学计算机学院副教授、博导霍静说。她长期专注具身智能领域，研究成果已与‌华为、宝马、西门子‌等企业合作，推动智能机器人在高端制造场景的产业化落地。

在她看来，以具身智能为核心代表的物理AI，如今正处在从实验室研究迈向工业化应用的关键转折点，但距离大规模商业化普及还有较长距离，机器人运行稳定性、复杂场景适配性等问题，依旧是落地过程中亟待补齐的短板。“数据、模型、算力是人工智能发展的三大核心支柱，这一点在物理AI领域同样适用，而相较于生成式AI，物理AI在这三个方面遇到的技术难题更为棘手。”

霍静剖析了数据层面行业面临的技术瓶颈：物理AI与硬件本体深度绑定，不同机器人搭载的传感器、关节模组各不相同，造成了严重的数据异构问题。为一款设备采集的动作数据，往往无法直接应用于其他设备，如何打造通用数据集、训练跨平台通用模型，成为行业普遍难题。

为破解数据采集难题，业内探索出多种路径。早期的方式是人工遥控机器人完成动作，通过模仿学习让设备复刻操作流程，不少企业搭建大型数据采集场地，集中人力开展数据采集工作，但这种真机遥操作模式效率较低、成本较高。为此，近年来，行业研发出轻量化采集方案，工作人员借助手持机械夹爪、穿戴式摄像设备直接演示动作，跳过机器人本体操控环节，有效提升数据采集效率。

仿真数据也是重要的数据来源，现阶段视觉仿真技术相对成熟，但想要精准模拟现实中的重力、摩擦力、物体软硬材质、水流、触觉等复杂物理特征，依旧存在诸多技术壁垒。除此之外，互联网上海量的人类操作视频也是潜在数据资源，但数据偏差最大、转化难度最高，相关技术仍处于探索阶段。

模型层面，目前国内外科研团队均在积极攻关，研究方向也从前两年的视觉语言动作基础模型，逐步拓展至世界动作模型（World Action Models, WAM），霍静认为，从模型性能来看，国内多款具身智能模型在国际权威评测榜单中表现亮眼，模型研发水平与国际基本持平。

算力则是目前国内物理AI发展的主要短板。霍静坦言，当前高端算力芯片仍受海外制约，不过随着国产软硬件生态持续完善，这一局面未来有望逐步改善。

“综合来看，我国依托雄厚的制造业基础，在机器人本体研发，数据采集、场景落地方面具备天然优势，数据标注与采集成本更低；模型研发能力与国际并跑；算力短板则需要行业持续发力攻克。”霍静说。

立足制造优势，抢占物理AI赛道

业内普遍将2026年称作“物理AI元年”。国家级领军人才、江苏省人工智能学会智能交通专业委员会主任、南京理工大学紫金卓越教授戚湧认为，现阶段全球物理AI整体处于从概念探索向场景落地过渡的早期阶段，自动驾驶、人形机器人、工业仿真成为落地热度最高的三大领域。“百度、华为、特斯拉等企业推出的自动驾驶产品与人形机器人，都是物理AI落地的典型代表，这类产品的核心价值正从传统硬件转向整套智能控制系统。”

戚湧强调，物理AI是目前人工智能发展的高阶形态，它与生成式AI、智能体等并非相互替代的迭代关系，各类AI形态将在不同场景中长期共生共存、互补发展。

立足江苏省产业特色，戚湧指出，作为全国制造业大省，江苏在发展物理AI赛道上拥有得天独厚的综合比较优势。首先，江苏拥有全国规模最大、门类最为齐全的制造业实体场景，为具身智能、工业数字孪生等技术提供了海量的试验田与应用空间，这是其他地区难以比拟的核心竞争力。其次，省内硬件产业链完备，从高精度传感器、控制器到精密加工形成了完整本土供应链，能够有效降低物理AI产业化成本。对比北京侧重基础大模型研发、上海深耕全栈平台的发展定位，江苏凭借扎实的制造业根基与硬件配套，可以走出一条物理AI差异化发展道路。

与此同时，戚湧也坦言江苏发展物理AI存在部分短板。比如，缺少具备全国影响力的基座大模型，智能芯片设计和智能软件等高附加值产业布局不足，针对原创技术研发的长期激励政策与耐心资本供给有所欠缺，早期风险投资活跃度、创新氛围与深圳、上海等城市相比仍有差距，在集聚全球顶尖人才和开源创新团队方面竞争力不足。“总之，江苏应补齐底层技术、创投生态等短板，持续强化政产学研用协同发力，在物理AI这条新赛道上抢抓发展机遇，推动人工智能技术真正扎根江苏实体产业、赋能经济高质量发展。”

此外，戚湧指出，随着物理AI加速走向商用，技术和产业背后的知识产权风险逐渐凸显。建议尽早布局物理AI领域知识产权创造和保护体系，不能让支持创新的基础制度建设滞后于科技发展。他总结了物理AI三大知识产权难题：算法专利审查存在困境，仿真数据、训练模型的资产权属模糊，物理AI侵权责任认定复杂。对此他建议，应采用专利、软著、商业秘密等多元保护模式，严守数据合规底线，鼓励优质数据集开源共享，助力全行业技术进步；在国际上主动参与行业标准制定和标准必要专利布局，抢占规则话语权，以完善的知识产权生态护航江苏物理AI产业行稳致远。

新华日报·交汇点记者蔡姝雯

扫码下载

扫码关注

扫码下载

交汇点新闻APP