【LLM】Agentic RL介绍

jjdxyq

110

收藏 2025-12-01

强化学习（Reinforcement Learning，RL）是一种专注于解决序贯决策问题的学习范式。它通过智能体与环境之间的持续交互，在不断“试错”的过程中学习如何最大化长期收益。相较于传统方法，这种机制赋予模型更强的自主性与适应能力。

传统的监督学习面临三大主要局限：首先，训练质量高度依赖数据质量，模型只能模仿已有标注样本，难以突破人类提供的知识边界；其次，缺乏主动探索的能力，无法发现新的解决方案路径；最后，难以有效优化涉及多步推理的长期目标，对中间过程的控制力较弱。

而强化学习则为这些问题提供了新的解决思路。通过让智能体自行生成多个候选答案，并依据其正确性获得奖励信号，系统可以学习到哪些推理路径更为高效、哪些步骤是关键所在，甚至可能发掘出优于人工标注的解题策略[8]。这正是 Agentic RL 的核心理念——将大语言模型（LLM）作为可学习的策略函数，嵌入到智能体的感知-决策-执行闭环中，利用强化学习来提升其在复杂任务中的多步表现能力。

PBRFT 思维聚焦于“如何让模型输出更优质的单一回答”，强调语言表达的流畅性和单步响应的质量；而 Agentic RL 则转向“如何使智能体成功完成端到端的复杂任务”，关注整体任务完成度与行动策略的合理性，支持多步规划与动态调整。这一转变推动了 LLM 从被动的“对话助手”向主动的“自主智能体”演进——它能够主动检索信息、判断何时调用外部工具、为了最终目标执行看似迂回的中间操作，并从失败经验中自我修正。

一、基础回顾

1、预训练

预训练阶段最常见的任务形式是因果语言建模（Causal Language Modeling），也被称为下一个词预测（Next Token Prediction）。

该任务的目标是：给定一个输入序列 $x_1, x_2, ..., x_t$，模型需预测下一个词 $x_{t+1}$。其损失函数定义为负对数似然：

$\mathcal{L}_{\text{pretrain}} = -\sum_{t=1}^{T} \log P(x_t | x_1, x_2, ..., x_{t-1}; \theta)$

其中：

$\theta$ 表示模型参数
$P(x_t | x_1, ..., x_{t-1}; \theta)$ 是模型基于历史上下文预测当前词的概率分布

训练目标是最小化该损失函数，即最大化正确词汇被预测出来的概率。例如，当输入为“The cat sat on the”时，模型应倾向于预测“mat”作为后续词汇。

通过在大规模文本语料上的训练，模型逐步掌握以下能力：

语法规则：识别合法的词语顺序和句法结构
语义知识：理解词汇间的关联与含义对应关系
世界知识：积累关于现实世界的事实性信息
基础推理能力：具备简单的逻辑推导与常识判断能力

2、监督微调（SFT）

目标：使模型能够准确理解和遵循指令，适配特定对话或任务格式。

训练数据：由(prompt, completion)组成的成对样本。

训练目标：与预训练类似，旨在最大化期望输出的条件概率。

损失函数：

$\mathcal{L}_{\text{SFT}} = -\sum_{i=1}^{N} \log P(y_i | x_i; \theta)$

参数说明：

$x_i$：输入提示（prompt）
$y_i$：对应的标准输出（completion）
$N$：训练样本总数

特点：

所需数据量相对较小
通常依赖人工标注
训练见效快
主要用于掌握任务格式与基本功能行为

3、奖励建模（RM）

目标：构建一个能够评估回答质量的模型，从而反映人类偏好。

训练数据：采用偏好对比数据集，每个样本包含同一问题下的两个不同回答，分别标记为更优（chosen）和较差（rejected）。

损失函数：

$\mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l)}[\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))]$

参数说明：

$r_\phi(x, y)$：奖励模型函数，接收（提示，回答）对并输出一个标量评分
$y_w$：质量更高的回答（preferred response）
$y_l$：质量较低的回答（dispreferred response）
$\sigma$：Sigmoid 激活函数，用于归一化差异得分

4、强化学习微调

在完成预训练、监督微调和奖励建模之后，进入强化学习阶段。此阶段使用如 PPO 等算法，以奖励模型输出的评分为反馈信号，进一步优化语言模型的生成策略。

智能体（即 LLM）根据当前状态生成动作（文本），环境返回奖励，模型据此更新策略参数，目标是最大化累积奖励。整个过程不再依赖固定标签，而是通过试错探索最优行为路径。

二、Agentic RL

1、PBRFT 与 Agentic RL 对比

PBRFT（Prompt-Based Response Fine-Tuning）注重单轮响应质量的优化，强调语言自然度与准确性，适用于问答、摘要等一次性输出任务。而 Agentic RL 更关注跨步骤的任务执行效率与整体成功率，强调策略选择、工具调用与错误恢复能力，适用于需要多跳推理或外部交互的复杂场景。

2、LLM 智能体六大核心能力

一个完整的 Agentic RL 架构要求 LLM 智能体具备以下六项关键能力：

感知理解：准确解析环境状态与用户意图
记忆管理：维护短期与长期记忆以支持上下文连贯
任务规划：将宏观目标分解为可执行子任务序列
工具调用：识别需求并正确使用搜索、代码解释器等外部资源
行动执行：按计划生成具体操作指令并实施
反思调整：根据反馈评估结果，修正策略与认知偏差

3、奖励函数的设计

设计有效的奖励函数是 Agentic RL 成败的关键。理想奖励应同时涵盖：

任务完成度（是否达成目标）
路径效率（步数、资源消耗）
安全性与合规性（避免有害输出）
用户满意度（符合预期风格与深度）

实践中常采用稀疏奖励结合稠密奖励 shaping 技术，帮助智能体更快收敛。

4、RL前的冷启动SFT

直接进行强化学习容易因初始策略过差导致训练不稳定。因此，在正式进入 RL 阶段前，通常会进行一轮专门的冷启动 SFT，使用高质量的轨迹数据（包括成功任务路径、工具使用记录等）对模型进行初步引导，使其具备基本的任务执行能力，为后续策略优化奠定基础。

5、GRPO训练

GRPO（Group Relative Policy Optimization）是一种适用于 Agentic RL 的新型训练方法。它不依赖显式的奖励模型，而是通过比较同一问题下多个生成路径的相对优劣，计算组内排序差异作为优化信号。这种方法降低了对精确打分的需求，增强了训练稳定性，尤其适合缺乏绝对标准答案但存在明显优劣对比的复杂任务场景。

Reference

[8] 相关研究指出，强化学习可用于发现超越人类标注的解题路径。

sigmoid函数

4、强化学习微调

目标：通过强化学习对语言模型进行优化，以生成更高质量的回复。

算法：采用PPO（Proximal Policy Optimization，近端策略优化）算法。

目标函数：

\[ J_{\text{PPO}} = \mathbb{E}_{x, y \sim \pi_{\theta}}\left[r_{\phi}(x, y)\right] - \beta \cdot D_{KL}\left(\pi_{\theta} \| \pi_{\text{ref}}\right) \]

参数说明：

π_θ：当前策略，即待优化的语言模型。
π_ref：参考策略，通常为经过监督微调（SFT）的模型。
r(x, y)：由奖励模型给出的评分，衡量生成回答的质量。
D_KL：KL散度，用于限制当前策略与参考策略之间的偏离程度。
β：平衡系数，控制KL惩罚项的强度。

目标含义：在最大化奖励的同时，避免策略过度偏离原始模型，确保输出的稳定性与可控性。

二、Agentic RL

传统的后训练方法（称为PBRFT：基于偏好的强化微调）主要聚焦于单轮对话质量的提升。其流程是：给定用户问题，模型生成一个回答，并根据该回答获得一次性奖励。这种方法适用于优化通用对话助手，但在面对需要多步推理、工具调用和长期规划的复杂任务时存在明显局限。

相比之下，Agentic RL 强调智能体在动态环境中的持续交互能力，具备以下关键特征：

支持多步决策过程
每一步行动会改变环境状态
每一步均可获得即时反馈
整体目标是优化任务完成的整体效果，而非单一回复质量

1、PBRFT 与 Agentic RL 的对比

强化学习通常基于马尔可夫决策过程（Markov Decision Process, MDP）进行建模。MDP由五元组 (S, A, P, R, γ) 构成，包括：

S：状态空间
A：行动空间
P(s′|s,a)：状态转移函数
R(s,a)：奖励函数
γ：折扣因子

从MDP框架出发，我们可以对PBRFT与Agentic RL进行系统性比较：

状态（State）方面：
PBRFT的状态 s₀ 仅由初始用户提示构成，整个过程为单步（T=1），状态不发生变化，表示为 s = prompt。
而Agentic RL的状态 s_t 包含完整的交互历史和上下文信息，具有较长的时间跨度（T 1），并随每一步行动不断演化，形式为：
s_t = (prompt, o₁, o₂, ..., o_t)，其中 o_t 表示第 t 步的观察结果（如工具返回内容或环境反馈）。

行动（Action）方面：
PBRFT的行动空间仅限于文本生成，属于单一类型的动作，表示为 a = y π_θ(y | s₀)。
Agentic RL则拥有更丰富的行动空间，涵盖文本生成、工具调用、环境操作等多种行为类型，表示为：
a_t ∈ {a_t^text, a_t^tool}，例如：
- a_t^text：输出思考过程或最终回答
- a_t^tool：调用计算器、搜索引擎等外部工具

状态转移函数（Transition Function）方面：
PBRFT不存在真正的状态转移，执行完生成动作后直接进入终止状态，表示为：
P(s′|s,a) = δ(s′ s_terminal)。
而在Agentic RL中，状态会根据智能体的行动和环境响应动态更新，即：
s_t+1 P(s_t+1 | s_t, a_t)，例如：执行一次搜索操作后，新状态将包含返回的搜索结果。

奖励机制（Reward）方面：
PBRFT仅在任务结束时提供一次性的单步奖励，形式为 r(s₀, a)，整体奖励记作 R_PBRFT = r(s, y)。
Agentic RL则支持多步奖励，每一步都可能获得反馈信号，总奖励为各步奖励的折现累加，更有利于长期目标的学习。

在强化学习与大语言模型（LLM）的结合中，PBRFT 与 Agentic RL 在奖励机制和训练目标上存在本质差异。PBRFT 的单步奖励定义为：

\[ R_{\text{PBRFT}} = r(s_0, y) \]

该奖励通常由奖励模型提供，形式为：

\[ r(s_0, y) = r_\phi(s_0, y) \]

相比之下，Agentic RL 引入了多步奖励机制，能够在执行过程中的各个阶段给予反馈，即 $ r(s_t, a_t) $，从而支持更复杂的任务决策。其总奖励表示为累积折扣奖励：

\[ R_{\text{Agentic}} = \sum_{t=0}^T \gamma^t r(s_t, a_t) \]

其中，$ \gamma \in [0,1] $ 为折扣因子，用于平衡当前与未来奖励的重要性。奖励函数 $ r(s_t, a_t) $ 可以设计为稀疏奖励（仅在任务完成时触发，例如答案正确+1）、密集奖励（每一步均有反馈，如工具调用成功+0.1），或两者的混合形式。

从训练目标来看，PBRFT 的优化目标是最大化单步期望奖励：

\[ J_{\text{PBRFT}}(\theta) = \mathbb{E}_{s_0, y \sim \pi_0}[r(s_0, y)] \]

而 Agentic RL 则致力于最大化整个轨迹上的累积折扣奖励：

\[ J_{\text{Agentic}}(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^T \gamma^t r(s_t, a_t)\right] \]

其中，轨迹 $ \tau = (s_0, a_0, s_1, a_1, \ldots, s_T) $ 表示智能体在整个任务过程中经历的状态与动作序列。

这种目标函数的转变反映了思维范式的演进：PBRFT 关注“如何让模型生成更优的单一回答”，强调语言表达质量与单步决策能力；而 Agentic RL 聚焦于“如何使智能体完成复杂任务”，注重行动策略与多步规划能力。这一转变推动 LLM 从传统的“对话助手”角色进化为具备自主性的“智能体”，能够主动获取信息、判断何时调用外部工具、接受中间过程的迂回路径，并从失败经验中持续学习。

奖励函数的设计原则

奖励函数的设计对训练效果具有决定性影响。一个高质量的奖励函数应满足以下条件：明确界定成功的标准、提供有效的梯度信号、保持较低的方差、易于调整与组合。反之，设计不当的奖励可能导致多种问题：仅在任务终点给予反馈，导致中间步骤缺乏指导；出现奖励欺骗现象，使得智能体通过非预期方式获取高分；多个目标之间相互冲突；或因方差过大而导致训练难以收敛。

强化学习前的冷启动：SFT 阶段

在进行强化学习之前，通常需先通过监督微调（SFT）进行冷启动。SFT 阶段可采用 LoRA 等参数高效微调方法。关键训练参数包括：

learning_rate：控制参数更新步长。过小（如 1e-6）会导致收敛缓慢，过大（如 1e-3）可能引发震荡甚至不收敛。推荐值为 5e-5，若使用 LoRA 可适当提高至 1e-4。

LoRA 相关配置建议如下：

use_lora：是否启用 LoRA 模块。建议始终开启，除非拥有充足的显存资源。
lora_rank：决定低秩矩阵的维度，影响模型表达能力。一般任务可选 4–8，复杂任务建议 16–32，大规模微调可用 64。
lora_alpha：LoRA 缩放因子，通常设为 rank 的两倍。例如，rank=8 时 alpha=16；rank=16 时 alpha=32。

训练过程监控指标

在训练过程中，需重点关注以下指标以确保训练稳定有效：

损失（Loss）：应呈逐步下降趋势。若长期不变，可能是学习率过低或数据存在问题；若先降后升，则可能存在学习率过高或过拟合。
梯度范数（Gradient Norm）：理想范围为 0.1–10。超过 100 表示梯度爆炸，需降低学习率；低于 0.01 则提示梯度消失，应检查模型结构或初始化设置。
学习率（Learning Rate）：应遵循 warmup 策略，在前 10% 的训练步数内线性上升，随后线性衰减至 0。

常见训练问题及应对策略

显存不足：可通过减小 batch_size 或 max_length 缓解，也可采用梯度累积技术，或换用更小规模的模型。
训练速度慢：可尝试增大 batch_size、减少日志记录频率，或启用混合精度训练（mixed precision）以提升效率。

在训练过程中，若发现损失不下降，可尝试增大学习率、检查数据格式是否正确，或适当增加训练轮数以提升模型收敛效果。当出现过拟合现象时，建议增大 weight_decay 参数以增强正则化，减少训练轮次，或引入更多训练数据来提升泛化能力。

GRPO（Group Relative Policy Optimization）是一种策略优化方法，其目标函数定义如下：

J_GRPO(θ) = _{s,a π_θ}[ (π_θ(a|s) / π_ref(a|s)) · (r(s,a) - r_group) ] - β · D_KL(π_θ ∥ π_ref)

其中，r_group 表示组内平均奖励，用于计算相对奖励信号；β 为 KL 散度惩罚系数，用以约束当前策略 π_θ 相对于参考策略 π_ref 的偏离程度。与 PPO 不同，GRPO 不依赖优势函数 A(s,a)，而是直接使用奖励与组内均值的差值作为优化信号，从而避免了对 Value Model 的依赖。

PPO 的目标函数形式为：

J_PPO(θ) = _{s,a π_θ}[ min( (π_θ(a|s)/π_old(a|s)) A(s,a), clip(π_θ(a|s)/π_old(a|s), 1ε, 1+ε) A(s,a) ) ]

其中优势函数 A(s,a) = Q(s,a) - V(s) = r(s,a) + γV(s') - V(s)，需要借助额外的价值网络进行估计。相比之下，GRPO 通过组内相对奖励机制有效降低方差，并结合 KL 惩罚项防止策略更新幅度过大，提升了训练稳定性。

在 GRPO 训练中需重点关注以下指标：

平均奖励（Average Reward）：应呈现逐步上升趋势。若奖励停滞不前，可能原因包括学习率设置过小、KL 惩罚过强、或奖励函数设计不合理；若奖励先升后降，则可能存在过拟合或发生奖励崩塌现象。

KL 散度（KL Divergence）：理想范围通常在 0.01 至 0.1 之间。若 KL 散度过高（>0.5），表明策略已严重偏离初始分布，建议增大 kl_coef 或调低学习率；若 KL 散度过低（<0.001），说明策略更新不足，可尝试减小 kl_coef 或提高学习率以促进探索。

准确率（Accuracy）：作为反映模型性能的核心指标，应在训练过程中持续提升，体现模型推理与生成能力的增强。

生成质量（Generation Quality）：需人工评估生成结果，确保输出内容格式规范、逻辑清晰、语义连贯。

常见问题及应对策略：

当训练中奖励未见增长时，可能原因是学习率偏低或 KL 惩罚过重限制了策略更新，也可能源于奖励函数设计缺陷或 SFT 模型基础质量较差。此时可尝试将学习率从 1e-5 提升至 5e-5，或将 kl_coef 从 0.1 调整为 0.05，同时检查奖励逻辑或重新训练监督微调阶段的模型。

若出现 KL 散度爆炸（超过 0.5 甚至达到 1.0），导致生成文本结构混乱、格式异常，通常由学习率过高、KL 惩罚不足或奖励函数过于激进引起。应对措施包括：将学习率从 5e-5 降至 1e-5，增大 kl_coef（如从 0.05 升至 0.1），优化奖励函数设计，或引入梯度裁剪技术以稳定训练过程。

在 GRPO 训练过程中，显存消耗通常高于 SFT，主要原因在于需要并行生成多个回答，同时保存参考模型的输出结果，这容易导致显存溢出（OOM）。为缓解这一问题，可采取多种优化策略：降低 num_generations 参数（例如从 8 调整为 4）、减小 batch_size（如由 4 改为 2）、缩短 max_new_tokens（如从 512 减至 256），或启用梯度检查点与混合精度训练技术以减少内存占用。

当模型生成质量下降时，尽管准确率可能有所提升，但常伴随格式混乱、推理逻辑不清晰等问题。这种情况可能源于奖励函数设计不合理——仅聚焦于准确率而忽视了其他关键质量维度；也可能是 KL 惩罚系数过小，导致当前策略模型过度偏离监督微调（SFT）阶段的原始分布；此外，训练轮数过多引发的过拟合同样可能导致此类现象。针对上述问题，建议采用组合式奖励函数，综合优化多项评价指标，适当增大 kl_coef 以增强输出稳定性，同时考虑减少训练迭代次数或扩充高质量训练数据来提升泛化能力。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

一、基础回顾

1、预训练

2、监督微调（SFT）

3、奖励建模（RM）

4、强化学习微调

二、Agentic RL

1、PBRFT 与 Agentic RL 对比

2、LLM 智能体六大核心能力

3、奖励函数的设计

4、RL前的冷启动SFT

5、GRPO训练

Reference

4、强化学习微调

二、Agentic RL

1、PBRFT 与 Agentic RL 的对比

奖励函数的设计原则

强化学习前的冷启动：SFT 阶段

训练过程监控指标

常见训练问题及应对策略

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群