具身世界模型新进展：北大提出RoboWM基准，实现机器人操作端到端评测闭环

557

收藏 2026-05-06

机器人操作物理合规性实现系统性量化评估

——视觉逼真≠物理可行

视频世界模型让机器人 “想象未来” 成为可能，可画面逼真不代表动作靠谱：一个在视频里看起来完美无缺的抓取动作，可能只是手指"穿模"过了物体，或者物体以不符合物理规律的方式发生了形变。为此，研究团队提出了RoboWM-Bench，一个专门针对机器人操作的视频世界模型基准测试。

它将"具身可执行性"确立为核心评估准则，通过将预测视频转化为可执行的机器人动作序列并在高保真仿真环境中执行，系统揭示了当前主流世界模型在物理常识上的深层缺陷。

那么它不再是评判模型“画得有多像”，而是直指那个终极拷问：模型想象的未来，机器人真的能执行吗？

为什么现有评估方法不够用？

在RoboWM-Bench之前，视频世界模型的评估主要依赖FVD（Fréchet视频距离）、PSNR等视觉质量指标，以及语义一致性评分。这类指标本质上是在问"视频看起来像不像真实的"，而非"视频中的动作能不能被执行"。

研究团队指出，现有模型在生成人手操作视频时，往往能维持较好的视觉合理性，但在关键的接触时刻，例如手指与物体的接触点、末端执行器的姿态，却频繁出现物理不一致。

更严重的是，机器人操作视频中的机械臂关节往往出现结构性扭曲，这些问题在视觉评估中难以被察觉，却会直接导致动作执行失败。

RoboWM-Bench的核心创新在于构建了一条完整的"视频→动作→执行→评分"流水线，将世界模型的评估从视觉空间拉回到物理空间。

给定一个初始场景观测和任务描述，世界模型生成预测视频后，RoboWM-Bench通过两条并行的动作提取路径将视频转化为可执行动作序列。

为了确保评估的可复现性，RoboWM-Bench基于LeHome仿真框架构建了高保真的Real-to-Sim重建流水线，利用4D高斯表示重建背景场景，利用SAM 3D获取交互物体的精确几何，从而在仿真中忠实复现真实世界场景。

RoboWM-Bench设计了一套覆盖不同交互复杂度的操作任务矩阵，系统性地测试世界模型在不同物理场景下的能力边界。

任务从简单的刚体操作（拾取物体、推按钮）逐步升级到需要运动学约束建模的关节体交互（开抽屉、旋转水龙头），再到需要非刚体动力学理解的柔性物体操作（折叠毛巾），以及需要多步骤时序规划的长程任务（组装汉堡）。

在评估协议上，RoboWM-Bench采用步骤级和任务级双重验证机制。每个任务预先定义一组语义上有意义的关键动作节点（例如接触事件、稳定抓取时刻），在执行过程中逐节点验证物理约束是否满足。

只有所有关键节点均通过步骤级检验，且最终任务目标达成，才判定为任务级成功。这种层级式协议不仅提供了整体成功率，还能精准定位失败发生在哪个交互阶段。

研究团队对五个代表性视频世界模型进行了系统评估，包括闭源的Veo 3.1和Wan 2.6，开源的Wan 2.2和Cosmos-Predict 2.5，以及在收集的真实操作数据上微调的Cosmos-Finetune。

实验结果揭示了三个重要规律。

第一，人手视频的执行成功率普遍高于机器人视频。这与预训练数据的分布偏差密切相关——互联网上的人手操作视频远多于机器人操作视频，导致模型对人手的物理建模更为准确。
第二，任务复杂度显著影响执行成功率。从短程任务（推按钮）到长程任务（放入抽屉），所有模型的成功率均呈现明显下滑，折叠毛巾任务对所有模型都构成了极大挑战。
第三，在机器人操作数据上微调能显著提升具身可执行性。Cosmos-Finetune在关闭抽屉任务上达到了90%的任务成功率，远超其预训练版本的0%，但在需要精确空间推理的任务上仍然存在明显局限。