摘要
离线 - 在线强化学习(O2O-RL)作为一种安全高效的机器人策略部署模式,面临着多模态行为覆盖有限及在线自适应过程中分布偏移的主要挑战。为此,南方科技大学、东部理工学院、诺丁汉大学以及新加坡科技研究局共同开发了一种受大型语言模型预训练与微调策略启发的统一生成式框架——UEPO(Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning)。该框架的核心贡献在于:
- 多种子动力学感知扩散策略,能够高效捕捉多样化的模态,无需训练多个模型;
- 动态分歧正则化机制,确保策略在物理层面上的有效多样性;
- 扩散基数据增强模块,增强了动力学模型的泛化能力。
在D4RL基准测试中,UEPO在移动任务上的表现比Uni-O4提高了5.9%,在灵巧操作任务上提高了12.4%,显示了其强大的泛化性和可扩展性。
引言
离线 - 在线强化学习(O2O-RL)是实现机器人安全高效部署的重要方式。这一模式首先利用静态离线数据集预训练基础策略,以更准确地捕捉物理动力学特征,减少在实际环境中试错的风险。随后,通过与环境的交互来微调策略,以适应不断变化的场景,形成“离线初始化 - 在线微调”的闭环流程。
在实际应用中,感知系统的质量和相机配置对野外数据的质量有着重要影响。例如,相机的移动可能会干扰评估结果,而大型相机阵列需要稳定的校准和高效的优化。在相邻的智能体系统中,基于大型语言模型(LLM)的多智能体协同与自进化团队合作展现了可扩展的规划能力,但在多智能体决策循环中也发现了风险累积的问题,因此在线交互机制的设计需要格外谨慎。此外,可学习的工具使用记忆可以帮助智能体更可靠地选择和参数化工具。
然而,现有的O2O-RL方法仍然存在一些明显的局限性,如离线初始化效率低下,生成模型与在线自适应之间的连接薄弱。传统的行为克隆(BC)高度依赖大量的专家数据,难以涵盖多模态的动作分布;尽管扩散策略等主流生成模型在离线建模方面表现出色,但由于固定的噪声调度和缺乏环境反馈,它们在在线微调阶段容易导致策略退化和分布偏移。
近年来,Off2On、BPPO、Uni-O4等框架通过联合优化目标整合了离线和在线学习,虽然取得了一定的进展,但Uni-O4在离线预训练、生成模型自适应和可扩展性方面仍存在问题,导致集成策略的计算成本高、物理执行层面的多样性不足、数据效率和泛化能力不佳。此外,当前的方法很少借鉴多模态推荐领域中的上游数据选择和偏好聚合技术,难以适应高维度的动力学场景和真实世界中的数据稀缺情况。
为了克服这些问题,本文提出了一个统一生成式的O2O-RL框架——UEPO,该框架的数据高效生成式离线模块具有以下三个特点:
- 采用融合U-Net与Transformer的动力学感知扩散策略,用于建模长时间的动作序列,通过不同的噪声种子生成多样化的子策略,减少了对专家演示数据的依赖;
- 结合分歧正则化与扩散采样的多样性,通过动态差异度量、噪声扰动和序列级别的约束,增加子策略之间的行为差异;
- 利用扩散模型合成轨迹来扩展训练数据,结合真实数据训练动力学模型,有效地将离线生成策略与在线微调过程连接起来。
该框架不仅提升了策略的表示能力、多样性和泛化性,还优化了复杂机器人任务的O2O-RL性能。在D4RL基准测试中,UEPO超越了现有的最佳基线方法,特别是在灵巧操作和四足移动任务中,表现出强大的稳定性和适应性。
方法
本文提出的UEPO框架结构如图1所示,其三大核心创新点无缝地集成到了覆盖离线和在线阶段的学习流程中。
3.1 基于扩散模型的条件动作序列生成
为了解决行为克隆(BC)的局限性,本文采用了状态条件扩散策略来建模完整动作序列的分布,从而捕捉离线数据中的长期依赖关系和多模态行为。通过多种子采样构建集成策略,提高了序列的合理性和行为的多样性。传统的集成方法需要训练多个独立的模型,计算成本较高。而UEPO通过在逆向采样过程中改变初始噪声种子,从单个训练好的扩散模型中构建n个子策略集合。每个子策略都以相同的状态序列为条件,但使用不同的随机种子初始化逆向过程,每个独特的种子生成一条动作序列,代表一种特定的行为模态,从而在降低成本的同时自然地增加了子策略的多样性。
3.2 扩散采样引导的分歧正则化增强
构建的集成策略提供了初始的多样性,但为了确保子策略在动态执行过程中表现出有效的分歧,需要将动态分歧约束直接融入扩散采样的过程中。这与Uni-O4将KL分歧惩罚应用于单步动作分布的方法不同,后者可能导致策略在静态上有差异但在动态上相似或相互冲突。
3.2.1 动态分歧约束
在生成第i个子策略的动作序列时,需要测量其与同一采样轮次中已生成的其他子策略动作序列的分歧,并引入基于动力学差异的分歧奖励来调整采样路径。
动态分歧度量是通过评估两个动作序列的一阶(速度)和二阶(加速度)动力学差异来定义它们之间的分歧,确保这些差异在实际物理执行中有意义。当这种分歧低于设定的阈值 τ 时,表明两条路径过于相似。此时,系统会通过自适应地扰动当前的去噪估计值来促使子策略探索不同的动态模式,且扰动的强度会随着分歧的减少而增加,这一过程由超参数调控。
3.2.2 与序列级 KL 正则化的协作
UEPO 继承了 Uni-O4 中的 KL 分歧惩罚措施,旨在维护全局分布的多样性。不过,它将这一惩罚的应用范围从单一的动作分布扩大到了整个动作序列的分布上,这与基于序列的扩散策略非常匹配。通过结合局部动态限制和全局序列级别的正则化,UEPO 有效地提高了子策略的多样性。
3.3 扩展动力学模型的泛化能力
在模型基础的强化学习中,当离线数据集未能充分覆盖状态-动作空间时,学习到的动力学模型往往泛化能力有限。为了减轻 Uni-O4 对有限转换样本可能产生的过拟合问题,UEPO 利用了扩散策略来生成物理上合理的轨迹,以此来增加动力学模型训练数据的数量,从而提高其泛化能力和在线学习的数据利用效率。
3.3.1 虚拟轨迹的生成与筛选
通过预先训练好的扩散策略生成多步动作序列,基于初始状态和实际的转移动力学构建轨迹。接着,计算实际动力学与初始动力学模型之间的 KL 散度,只有那些散度低于特定阈值的轨迹才会被保留下来作为增强数据,确保新增数据与基本的物理规律保持一致。
3.3.2 动力学模型的综合训练
将筛选后的虚拟轨迹与原始离线数据集合并,形成一个联合训练数据集,以最大似然目标更新动力学模型。虚拟数据集的大小通常控制在原始数据集的2到3倍之间,以在增加数据量的同时保持真实数据分布的真实性,从而大幅提高模型对未知状态-动作空间区域的泛化能力。
第四章 实验
本研究通过一系列离线强化学习基准测试来评估提出的算法,主要关注两个方面:
1) 与当前最佳基线方法的性能对比;
2) 多个子扩散策略集成对离线数据集多模态特性建模的能力。
4.1 实验结果
实验涵盖了移动任务(例如 halfcheetah、hopper、walker2d 等环境)、灵巧操作任务(如 Adroit 系列中的 pen、hammer、door、relocate 环境,包括人类演示和克隆数据)以及厨房任务(kitchen-complete/partial/mixed)。实验结果对比了 CQL、TD3+BC、IQL、Uni-O4 等十多种主流方法,具体成绩如下:
- 移动任务总分:UEPO 达到 864.6±8.5,超过了所有基线方法,相比 Uni-O4 的 816.4 有显著提升;
- 灵巧操作任务(Adroit 系列):总分为 324.4±26.5,在 pen-human 和 door-human 场景中表现出色;
- 厨房任务总分:230.5±12.0,优于 Uni-O4 的 216.9,显示了其在复杂环境下的适应能力;
- 总体总分:1419.5±47.0,全面领先于所有对比方法,包括 Uni-O4,证实了该框架的有效性。
第五章 结论
本文介绍了 UEPO,这是一种统一的生成式离线-在线强化学习框架,成功解决了现有 O2O-RL 方法的关键限制。该框架利用动力学感知的扩散策略实现高效的离线初始化,通过分歧增强的正则化机制增加了策略的多样性,减轻了分布偏移的问题,减少了对专家数据的依赖,并展示了强大的泛化能力。D4RL 基准测试的结果证明,UEPO 在复杂的高维机器人任务中达到了目前的最佳性能。