物理AI今年成为全球人工智能领域的全新热点。
6月初,在奥地利维也纳举行的国际机器人与自动化会议(ICRA 2026)上,研讨的焦点在于如何让具身智能跨越“从语义理解到物理执行”;英伟达推出面向物理AI的开放世界基础模型NVIDIA Cosmos 3,并发起全球开发者协作联盟,共同推动下一代世界模型(World Model,WM)技术发展。
前沿科技会议、科技巨头缘何纷纷将目光投向这一赛道?物理AI和生成式AI、代理AI(智能体)有何区别?世界模型的研究为何重要?当下物理AI行业的发展现状、机遇与挑战又是什么?我们采访了江苏省人工智能学会的三位专家。
世界模型,物理AI的核心引擎
在ICRA 2026相关活动AGIBOT世界挑战赛中,来自全球多个国家及地区的336支顶尖团队逐鹿世界模型(WM)赛道,最终决出10支优胜战队。中国科学院工业人工智能研究所物理智能团队的世界模型PAI-WM荣获亚军,并在衡量物理环境理解能力的核心指标——“场景一致性”得分上,以显著优势夺得第一。
“物理AI是人工智能长期演进的必然结果,世界模型则是物理AI发展的核心引擎。”中国科学院工业人工智能研究所物理智能团队负责人徐凯说。
他解释道,现在大家较为熟悉的各种判别式AI、生成式AI、智能体等,主要运行在虚拟数字世界,包括人脸识别、聊天机器人、文生图等应用产品等;而物理AI的本质,是为机器人、智能装备、自动驾驶汽车等硬件赋予智能,使其实现对现实世界的感知、理解、预判与自主交互。当下行业聚焦物理AI,是顺应智能技术向实体场景延伸的需求。
世界模型成为热门赛道,是因为具身智能大模型碰壁,倒逼行业寻找新方向。2022年至2023年,ChatGPT等生成式AI大模型爆火后,行业很快形成了“大数据+大算力”驱动通用智能的信念。很快,这种对规模的信仰就延伸到了最具市场前景的机器人领域。业内尝试将类似的模式复刻到机器人领域,一个典型代表就是视觉-语言-动作模型(Vision-Language-Action Model,VLA)。但实践证明,单纯套用“生成式AI大模型+模仿学习”的路径行不通:模型在视觉识别、语言理解等方面表现出很好的智能,但在实体的动作执行环节能力严重不足。
“世界模型的核心能力是预判与推演,这也是物理AI区别于传统AI的关键。”徐凯举例道,人类在打乒乓球时,不会全程紧盯着球,而是根据运动轨迹预判落点,再做出接球动作,这种预判能力,正是源于人脑对物理规律的认知。世界模型就是要让人工智能理解、模拟并预判物理世界的运转过程。
目前,主流的世界模型以视频生成路线为主,通过单帧画面预判后续画面变化,比如根据手持水杯翻转的画面,推演出水杯倾斜、水流流出的画面,这意味着模型已经初步掌握重力、流体等基础物理规律。不过现阶段的世界模型仍存在明显短板,容易产生“物理幻觉”、生成违背客观物理规则的内容,比如画面中物体凭空消失、水流穿透桌面等,这也是后续技术迭代需要重点解决的问题。
“简单而言,物理AI就是能够感知和理解真实物理世界,能够模拟和预测真实物理世界的运转过程,能够在真实物理世界中交互和完成各种任务的人工智能模型与系统。”徐凯说。
多种路径,破解动作数据采集难题
“物理AI并非凭空出现的全新技术,相关研究如物理仿真、具身智能与机器人学等均由来已久,只是物理AI作为这些技术的集大成者,近年来被业界定义为人工智能发展的下一个重要浪潮,标志着人工智能从数字智能向物理交互的范式变革。”南京大学计算机学院副教授、博导霍静说。她长期专注具身智能领域,研究成果已与华为、宝马、西门子等企业合作,推动智能机器人在高端制造场景的产业化落地。
在她看来,以具身智能为核心代表的物理AI,如今正处在从实验室研究迈向工业化应用的关键转折点,但距离大规模商业化普及还有较长距离,机器人运行稳定性、复杂场景适配性等问题,依旧是落地过程中亟待补齐的短板。“数据、模型、算力是人工智能发展的三大核心支柱,这一点在物理AI领域同样适用,而相较于生成式AI,物理AI在这三个方面遇到的技术难题更为棘手。”
霍静剖析了数据层面行业面临的技术瓶颈:物理AI与硬件本体深度绑定,不同机器人搭载的传感器、关节模组各不相同,造成了严重的数据异构问题。为一款设备采集的动作数据,往往无法直接应用于其他设备,如何打造通用数据集、训练跨平台通用模型,成为行业普遍难题。
为破解数据采集难题,业内探索出多种路径。早期的方式是人工遥控机器人完成动作,通过模仿学习让设备复刻操作流程,不少企业搭建大型数据采集场地,集中人力开展数据采集工作,但这种真机遥操作模式效率较低、成本较高。为此,近年来,行业研发出轻量化采集方案,工作人员借助手持机械夹爪、穿戴式摄像设备直接演示动作,跳过机器人本体操控环节,有效提升数据采集效率。
仿真数据也是重要的数据来源,现阶段视觉仿真技术相对成熟,但想要精准模拟现实中的重力、摩擦力、物体软硬材质、水流、触觉等复杂物理特征,依旧存在诸多技术壁垒。除此之外,互联网上海量的人类操作视频也是潜在数据资源,但数据偏差最大、转化难度最高,相关技术仍处于探索阶段。
模型层面,目前国内外科研团队均在积极攻关,研究方向也从前两年的视觉语言动作基础模型,逐步拓展至世界动作模型(World Action Models, WAM),霍静认为,从模型性能来看,国内多款具身智能模型在国际权威评测榜单中表现亮眼,模型研发水平与国际基本持平。
算力则是目前国内物理AI发展的主要短板。霍静坦言,当前高端算力芯片仍受海外制约,不过随着国产软硬件生态持续完善,这一局面未来有望逐步改善。
“综合来看,我国依托雄厚的制造业基础,在机器人本体研发,数据采集、场景落地方面具备天然优势,数据标注与采集成本更低;模型研发能力与国际并跑;算力短板则需要行业持续发力攻克。”霍静说。
立足制造优势,抢占物理AI赛道
业内普遍将2026年称作“物理AI元年”。国家级领军人才、江苏省人工智能学会智能交通专业委员会主任、南京理工大学紫金卓越教授戚湧认为,现阶段全球物理AI整体处于从概念探索向场景落地过渡的早期阶段,自动驾驶、人形机器人、工业仿真成为落地热度最高的三大领域。“百度、华为、特斯拉等企业推出的自动驾驶产品与人形机器人,都是物理AI落地的典型代表,这类产品的核心价值正从传统硬件转向整套智能控制系统。”
戚湧强调,物理AI是目前人工智能发展的高阶形态,它与生成式AI、智能体等并非相互替代的迭代关系,各类AI形态将在不同场景中长期共生共存、互补发展。
立足江苏省产业特色,戚湧指出,作为全国制造业大省,江苏在发展物理AI赛道上拥有得天独厚的综合比较优势。首先,江苏拥有全国规模最大、门类最为齐全的制造业实体场景,为具身智能、工业数字孪生等技术提供了海量的试验田与应用空间,这是其他地区难以比拟的核心竞争力。其次,省内硬件产业链完备,从高精度传感器、控制器到精密加工形成了完整本土供应链,能够有效降低物理AI产业化成本。对比北京侧重基础大模型研发、上海深耕全栈平台的发展定位,江苏凭借扎实的制造业根基与硬件配套,可以走出一条物理AI差异化发展道路。
与此同时,戚湧也坦言江苏发展物理AI存在部分短板。比如,缺少具备全国影响力的基座大模型,智能芯片设计和智能软件等高附加值产业布局不足,针对原创技术研发的长期激励政策与耐心资本供给有所欠缺,早期风险投资活跃度、创新氛围与深圳、上海等城市相比仍有差距,在集聚全球顶尖人才和开源创新团队方面竞争力不足。“总之,江苏应补齐底层技术、创投生态等短板,持续强化政产学研用协同发力,在物理AI这条新赛道上抢抓发展机遇,推动人工智能技术真正扎根江苏实体产业、赋能经济高质量发展。”
此外,戚湧指出,随着物理AI加速走向商用,技术和产业背后的知识产权风险逐渐凸显。建议尽早布局物理AI领域知识产权创造和保护体系,不能让支持创新的基础制度建设滞后于科技发展。他总结了物理AI三大知识产权难题:算法专利审查存在困境,仿真数据、训练模型的资产权属模糊,物理AI侵权责任认定复杂。对此他建议,应采用专利、软著、商业秘密等多元保护模式,严守数据合规底线,鼓励优质数据集开源共享,助力全行业技术进步;在国际上主动参与行业标准制定和标准必要专利布局,抢占规则话语权,以完善的知识产权生态护航江苏物理AI产业行稳致远。
新华日报·交汇点记者 蔡姝雯

新华报业网
Android版
iPhone版