新华日报财经讯 4月24日至29日,一家名为“星工聚将”的江苏公司将带着一套技术方案走进斯坦福大学和加州大学伯克利分校,与全球顶尖的AI学者探讨一个根本问题:机器人如何才能像人一样理解物理世界?
就在3月,德国斯图加特LogiMAT物流展上,星工聚将的一台银灰色机械臂吸引了众多目光。该机械臂在杂乱的退货堆中快速分拣,不同材质、不同形变的包装袋被一一抓取归位,换箱、换光、换摆放角度,动作始终流畅。
“两条路”要过一个坎
过去两年,具身智能赛道飞速发展,“大模型信仰”也在悄然流行。这意味着把海量视频数据“喂”给视觉语言动作模型,期待像GPT那样“大力出奇迹”。但现实的反馈并不理想:实验室里能叠衣服的机器人,换张桌布就手忙脚乱;光照角度一变,动作立刻变形。
在达沃斯论坛期间,图灵奖得主杨立昆(Yann LeCun)直言:“现有大语言模型缺乏对物理世界的真实理解。”
问题出在哪儿?星工聚将技术负责人陈牧把路线之争清晰地摆了出来。“一条路是数据驱动,用更大算力去逼近真实;另一条路是物理驱动,让机器人先建立对现实规律的‘直觉’,再去做任务。”
“物理世界变化太大,非结构化场景层出不穷。如果机器人不能理解重力、摩擦力这些基本规律,就永远只能当实验室里的提线木偶。”陈牧说。
技术路线靠场景投票。在2026年AWE和LogiMAT展会上,星工聚将的XG Z1机器人在物流场景中展现了关键的泛化能力。面对不同颜色、材质、摆放角度的货品,它不靠预设轨迹死记硬背,而是基于实时感知不断判断“当下最稳的动作是什么”。这套“物流认知引擎”就是物理对齐方案落地的阶段性答卷。
让机器人先“记住动作”,再“建立直觉”
星工聚将采用的方案称为“物理对齐”。正如大语言模型通过人类反馈学会理解人类语言习惯(即“语义对齐”),机器人要在真实世界里干活,就得学会“听懂”物理法则。这意味着机器人要清楚知道“玻璃杯需轻拿轻放”,知道“湿地板会打滑”,知道“堆高的箱子重心不稳会倒”——这就是“物理对齐”。
为了让机器人学会“物理对齐”,星工聚将的团队打造了三层递进的学习阶梯:
第一层:从“执行指令”到“理解空间”。机器人不再死板执行扫地命令,而是像人一样先扫视屋子:哪里能走,哪里有障碍,动作路线如何规划。
第二层:从“识别物体”到“理解属性”。不只知道“这是扫把”,还知道它塑料柄硬、刷毛软,抓太紧会滑,压太狠会弯。
第三层:从“完成动作”到“动态校准”。一边干活一边根据触感、力反馈不断微调,就像人端着即将溢出的水杯时,手会下意识寻找平衡。
这三层能力叠加,便是星工聚将所说的“物理直觉”。它不是让机器人记住一百种抓杯子的动作,而是让它在任何没见过的杯子面前,都能自己判断该如何下手。
打造“数字风洞”,缩短纠错速度
工程上的挑战更为艰巨。机器人领域有一个长期难题叫“仿真与现实的鸿沟”——在电脑模拟中运行完美的动作,一旦应用到真实机器人身上就会出错。行业的惯常做法是不断让仿真环境更接近真实世界,但代价是计算成本呈指数级上升,且永远追不上现实的复杂度。
星工聚将换了一个思路。他们借鉴了航空业的方法,打造了一个“数字风洞”:不再追求仿真与真实完全一致,而是构建一系列关键物理场景,专门测量机器人仿真动作与真实动作之间的偏差,再用这个偏差反向修正模型。
这相当于让机器人学会“纠错式学习”:先判断“我哪里做得不对”,再琢磨“怎样做才对”。随着系统对物理规律的理解不断加深,它对新增数据的依赖反而下降,训练成本从指数增长转向线性收敛。用团队的话说:“我们不拼谁仿得更像,我们拼谁错得更少。”
据悉,在4月底的硅谷高校行中,星工聚将希望探讨的不仅是技术细节,更是一次关于“世界模型”路线的公开对表。在具身智能尚未形成统一范式的当下,选择哪条路本身就是战略判断。星工聚将已经选择了更靠近物理本质的方向,尽管这条路目前还不够热闹。
新华日报·财经记者 何玥颐

新华报业网
Android版
iPhone版