全部版块 我的主页
论坛 数据科学与人工智能 人工智能
557 4
2026-05-06

机器人操作物理合规性实现系统性量化评估

——视觉逼真≠物理可行

视频世界模型让机器人 “想象未来” 成为可能,可画面逼真不代表动作靠谱: 一个在视频里看起来完美无缺的抓取动作,可能只是手指"穿模"过了物体,或者物体以不符合物理规律的方式发生了形变。 为此,研究团队提出了RoboWM-Bench,一个专门针对机器人操作的视频世界模型基准测试

它将"具身可执行性"确立为核心评估准则,通过将预测视频转化为可执行的机器人动作序列并在高保真仿真环境中执行,系统揭示了当前主流世界模型在物理常识上的深层缺陷。

那么它不再是评判模型“画得有多像”,而是直指那个终极拷问:模型想象的未来,机器人真的能执行吗?

为什么现有评估方法不够用?

在RoboWM-Bench之前,视频世界模型的评估主要依赖FVD(Fréchet视频距离)、PSNR等视觉质量指标,以及语义一致性评分。 这类指标本质上是在问"视频看起来像不像真实的",而非"视频中的动作能不能被执行"。

▲图1 | 世界模型生成的"不可靠抓取"视频示例。可以看到,手指几乎全部集中在香蕉的一小块局部区域,这种抓取姿态在力学上并不稳定,物体在后续运动过程中极易脱手掉落。这正是当前世界模型"看起来抓得住、实际上抓不稳"的典型表现。©【深蓝具身智能】编译。©【深蓝具身智能】编译
▲图1 | 世界模型生成的"不可靠抓取"视频示例。可以看到,手指几乎全部集中在香蕉的一小块局部区域,这种抓取姿态在力学上并不稳定,物体在后续运动过程中极易脱手掉落。这正是当前世界模型"看起来抓得住、实际上抓不稳"的典型表现。©【深蓝具身智能】编译。©【深蓝具身智能】编译

研究团队指出,现有模型在生成人手操作视频时,往往能维持较好的视觉合理性,但在关键的接触时刻,例如手指与物体的接触点、末端执行器的姿态,却频繁出现物理不一致。

更严重的是,机器人操作视频中的机械臂关节往往出现结构性扭曲,这些问题在视觉评估中难以被察觉,却会直接导致动作执行失败

亮点一:从视频到动作的具身评估流水线

RoboWM-Bench的核心创新在于构建了一条完整的"视频→动作→执行→评分"流水线,将世界模型的评估从视觉空间拉回到物理空间。

给定一个初始场景观测和任务描述,世界模型生成预测视频后,RoboWM-Bench通过两条并行的动作提取路径将视频转化为可执行动作序列。

  • 对于人手操作视频,采用HaMeR模型重建3D手部姿态,再通过改进的重定向算法将手部动作映射为机器人末端执行器的位姿序列;

  • 对于机器人操作视频,则训练了一个逆动力学模型(IDM),以连续帧为输入直接预测关节空间动作块。

▲图2 | RoboWM-Bench的评估流水线。左侧的Real-to-Sim模块利用Marble和SAM 3D将真实场景重建为高保真仿真环境;中间的世界模型生成预测视频后,分别通过人手重定向(上路)和逆动力学模型IDM(下路)提取可执行动作;右侧的具身验证模块在仿真中执行动作并以绿勾/红叉标注成功与失败。©【深蓝具身智能】编译
▲图2 | RoboWM-Bench的评估流水线。左侧的Real-to-Sim模块利用Marble和SAM 3D将真实场景重建为高保真仿真环境;中间的世界模型生成预测视频后,分别通过人手重定向(上路)和逆动力学模型IDM(下路)提取可执行动作;右侧的具身验证模块在仿真中执行动作并以绿勾/红叉标注成功与失败。©【深蓝具身智能】编译

为了确保评估的可复现性,RoboWM-Bench基于LeHome仿真框架构建了高保真的Real-to-Sim重建流水线,利用4D高斯表示重建背景场景,利用SAM 3D获取交互物体的精确几何,从而在仿真中忠实复现真实世界场景。

亮点二:多复杂度任务矩阵与层级式评估协议

RoboWM-Bench设计了一套覆盖不同交互复杂度的操作任务矩阵,系统性地测试世界模型在不同物理场景下的能力边界

任务从简单的刚体操作(拾取物体、推按钮)逐步升级到需要运动学约束建模的关节体交互(开抽屉、旋转水龙头),再到需要非刚体动力学理解的柔性物体操作(折叠毛巾),以及需要多步骤时序规划的长程任务(组装汉堡)。

▲图3 | 真实场景与仿真场景一致性评估的更多定性结果展示。左侧为真实世界中执行的操作过程,右侧为在重建仿真环境中执行完全相同操作轨迹的过程。RoboWM-Bench覆盖了从刚体操作、关节体交互(如开抽屉、旋转水龙头)、柔性物体操作到长程多步任务的多种交互复杂度。两侧画面在各个关键动作节点上的高度吻合,验证了重建流程的高保真度,也说明该基准能够在步骤级和任务级两个层面上对世界模型进行可靠评估。©【深蓝具身智能】编译
▲图3 | 真实场景与仿真场景一致性评估的更多定性结果展示。左侧为真实世界中执行的操作过程,右侧为在重建仿真环境中执行完全相同操作轨迹的过程。RoboWM-Bench覆盖了从刚体操作、关节体交互(如开抽屉、旋转水龙头)、柔性物体操作到长程多步任务的多种交互复杂度。两侧画面在各个关键动作节点上的高度吻合,验证了重建流程的高保真度,也说明该基准能够在步骤级和任务级两个层面上对世界模型进行可靠评估。©【深蓝具身智能】编译

在评估协议上,RoboWM-Bench采用步骤级和任务级双重验证机制。每个任务预先定义一组语义上有意义的关键动作节点(例如接触事件、稳定抓取时刻),在执行过程中逐节点验证物理约束是否满足。

只有所有关键节点均通过步骤级检验,且最终任务目标达成,才判定为任务级成功。这种层级式协议不仅提供了整体成功率,还能精准定位失败发生在哪个交互阶段。

实验与表现

研究团队对五个代表性视频世界模型进行了系统评估,包括闭源的Veo 3.1和Wan 2.6,开源的Wan 2.2和Cosmos-Predict 2.5,以及在收集的真实操作数据上微调的Cosmos-Finetune。

实验结果揭示了三个重要规律。

  • 第一,人手视频的执行成功率普遍高于机器人视频。这与预训练数据的分布偏差密切相关——互联网上的人手操作视频远多于机器人操作视频,导致模型对人手的物理建模更为准确。

  • 第二,任务复杂度显著影响执行成功率。从短程任务(推按钮)到长程任务(放入抽屉),所有模型的成功率均呈现明显下滑,折叠毛巾任务对所有模型都构成了极大挑战。

  • 第三,在机器人操作数据上微调能显著提升具身可执行性。Cosmos-Finetune在关闭抽屉任务上达到了90%的任务成功率,远超其预训练版本的0%,但在需要精确空间推理的任务上仍然存在明显局限。

▲图4 | 在RoboWM-Bench基准测试上的具身执行成功率(%)。其中,上面两部分展示的是人手操作任务的结果,下面两部分则是机械臂操作任务的结果。每项任务的成功率都从两个层面进行了统计:一个是"任务级别"(也就是整个任务有没有完成),另一个是"步骤级别"(任务中每一步有没有做对)。©【深蓝具身智能】编译
▲图4 | 在RoboWM-Bench基准测试上的具身执行成功率(%)。其中,上面两部分展示的是人手操作任务的结果,下面两部分则是机械臂操作任务的结果。每项任务的成功率都从两个层面进行了统计:一个是"任务级别"(也就是整个任务有没有完成),另一个是"步骤级别"(任务中每一步有没有做对)。©【深蓝具身智能】编译

定性分析进一步揭示了典型的失败模式:

  • 在"放盘子"任务中,模型生成的视频显示手指仅仅触碰了物体而未形成稳定抓握,但视频在视觉上看起来完全合理;

  • 在"开抽屉"任务中,夹爪的姿态在视频中看似正确,但转化为关节角度后却无法与抽屉把手形成有效接触。

▲图5 | 定性执行结果对比。上方人手操作行(蓝色)展示了叠杯、放盘子和开抽屉三类任务的成功(绿勾)与失败(红叉)案例;下方机器人操作行(红色)展示了推物体、放入抽屉和丢垃圾任务的执行结果。可以看出,机器人操作任务的失败率明显高于人手任务,且失败往往发生在接触和精确放置阶段。©【深蓝具身智能】编译
▲图5 | 定性执行结果对比。上方人手操作行(蓝色)展示了叠杯、放盘子和开抽屉三类任务的成功(绿勾)与失败(红叉)案例;下方机器人操作行(红色)展示了推物体、放入抽屉和丢垃圾任务的执行结果。可以看出,机器人操作任务的失败率明显高于人手任务,且失败往往发生在接触和精确放置阶段。©【深蓝具身智能】编译

这些案例生动地说明了视觉评估与物理评估之间的鸿沟。

总结与延伸

RoboWM-Bench指出视频世界模型走向具身智能应用时缺乏对物理接触、空间推理和非刚体动力学的深层理解

这一发现对世界模型的设计提出了新的要求——仅仅在视觉数据上扩展规模是不够的,还需要将物理先验更深入地融入模型的训练目标和架构设计中

同时一个问题值得深思:在数据层面,什么样的训练信号能够最有效地帮助世界模型建立物理常识?是更多的机器人操作数据,还是引入显式的物理仿真监督?

编辑|阿豹

审编|具身君

Ref

论文标题:RoboWM-Bench: Benchmarking Video World Models for Robotic Manipulation

论文作者:Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu

论文链接:https://arxiv.org/abs/2604.19092

项目主页:https://robowm-bench.github.io/RoboWM-Bench/


原文作者: 深蓝具身智能
原文链接: https://mp.weixin.qq.com/s/pf9-MpmB8WPEsBGlM-752w
来源: 微信公众号

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
1 小时前
视频世界模型让机器人 “想象未来” 成为可能,可画面逼真不代表动作靠谱: 一个在视频里看起来完美无缺的抓取动作,可能只是手指"穿模"过了物体,或者物体以不符合物理规律的方式发生了形变。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

1 小时前
为此,研究团队提出了RoboWM-Bench,一个专门针对机器人操作的视频世界模型基准测试。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

1 小时前
它将"具身可执行性"确立为核心评估准则,通过将预测视频转化为可执行的机器人动作序列并在高保真仿真环境中执行,系统揭示了当前主流世界模型在物理常识上的深层缺陷。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

半小时前
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群