Verbalized Sampling (VS) 技术概述
Verbalized Sampling(语言化采样,简称 VS)是一种无需对模型进行再训练的轻量级方法,旨在通过调整输入提示的方式缓解大语言模型中的模式坍塌问题,从而提升生成结果的多样性。
该技术的核心思想是引导模型不直接输出“最优”答案,而是以语言形式显式表达其对多个可能响应的概率评估。例如,使用如下指令:
<instructions>
Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.
</instructions>
Tell me a short story about a bear.
核心原理
模式坍塌的根本原因在于后训练阶段引入的人类偏好偏差——即“典型性偏差”。在数据标注过程中,评审者往往更青睐语言自然、结构熟悉、符合常规表达习惯的回答,即使这些回答并非最具创意或最准确。
这种倾向被奖励模型捕捉并强化,导致语言模型逐渐收敛到少数高概率、高流畅性的输出路径上,抑制了低概率但可能更有价值的多样化响应。
VS 的解决思路是绕过这一偏好机制:通过设计特定提示,让模型从单一“最优解”输出转向对整个响应分布的语言化描述。例如,传统提问如“讲一个笑话”,模型倾向于返回最高概率的那个常见笑话;而采用 VS 提示如“生成5个笑话并给出每个的概率”,则迫使模型探索原本被忽略的尾部分布,恢复其预训练阶段本具有的多样性潜力。
传统提示与VS对比
| 特性维度 |
传统直接提示 (Direct Prompting) |
语言化采样 (Verbalized Sampling) |
| 提示目标 |
获取一个最优/最可能的答案 |
获取包含多种可能性的答案概率分布 |
| 模型行为 |
输出最典型、最安全的单一答案 |
生成多个低概率、多样化的候选响应,并附带语言化的概率评估 |
实施方法
Verbalized Sampling 可通过以下三种方式实现,适用于不同使用场景:
- 设置系统提示词(持续对话):在对话系统的初始设定中嵌入分布级指令,使模型在整个交互过程中持续保持多路径思考模式。
- 使用直接用户提示(单次请求):在单轮查询中显式加入生成多个响应及概率的要求,适用于临时激发多样性输出。
- 通过代码库调用(开发与研究):结合开源工具包(如 GitHub 项目),在程序层面集成 VS 模块,便于批量实验与分析。
后训练阶段的RLHF对齐机制
基于人类反馈的强化学习(RLHF)是当前主流的语言模型对齐手段,通常分为三个步骤:
- 由策略模型生成多个候选响应;
- 人工标注员对响应质量进行排序或打分;
- 基于标注数据训练奖励模型,并利用强化学习微调原始策略。
尽管该流程有效提升了输出的可读性和安全性,但也埋下了典型性偏差的隐患。
典型性偏差的形成机制
在标注环节,评估者普遍偏好语法通顺、风格熟悉的表达方式,而较少关注内容的新颖性或深层逻辑一致性。这种主观偏好被编码进奖励函数中,使得模型将“典型性”误认为高质量的标志。
久而久之,模型学会优先选择那些出现在训练语料中高频出现的语言模式,忽略低频但合理的替代方案,最终导致输出趋同。
偏差放大的反馈循环
一旦典型性特征被奖励模型采纳为关键判断标准,就会引发正向反馈循环:
模型生成偏向典型的响应 → 标注者继续给予高分 → 奖励模型进一步强化该偏好 → 模型输出更加集中 → 多样性持续下降。
这一过程虽维持了表面的语言流畅度,却可能牺牲事实准确性、创造性与推理深度。
奖励函数的数学表达
为形式化描述上述机制,论文提出如下奖励函数表达式:
R(x) = U(x) + \beta \log \frac{p_{\text{LM}}(x)}{p_{\text{ref}}(x)} + C
其中各变量含义如下:
- U(x):表示响应 x 在目标任务上的真实效用,如信息量、正确性等;
- pLM(x):当前语言模型生成 x 的概率;
- pref(x):参考模型(通常是基底模型)下 x 的生成概率;
- β:控制人类对典型性偏好的强度系数;
- C:归一化常数,不影响优化方向。
模型偏好分析
当 β > 0 时,奖励函数会系统性地偏好那些在基模型中具有较高似然值的输出。这意味着即使某些答案更具创新性或更贴近事实,只要它们偏离常规表达模式,就难以获得高奖励。
因此,模型逐步退化为“安全答案生成器”,仅聚焦于语言表层的合规性,而非认知层面的价值最大化。
缓解偏差的潜在方向
为打破典型性主导的闭环,可尝试以下策略:
- 引入多元背景的标注团队,减少文化或语言习惯带来的同质化影响;
- 制定细粒度评价标准,明确区分“语言流畅性”与“事实准确性”、“逻辑严密性”等维度;
- 采用对抗性训练机制,鼓励模型识别并平衡不同优化目标之间的冲突。
应用场景与效果
Verbalized Sampling 已在创意写作、开放域问答、多假设推理等任务中展现出显著优势。通过激活模型潜在的概率尾部区域,VS 能够生成更具想象力和差异化的响应集合,有助于避免千篇一律的输出。
此外,在需要探索多种可能性的决策支持、教育辅导和科学研究场景中,该方法也表现出良好的应用前景。
注意事项
尽管 VS 方法简单有效,但在实际应用中仍需注意:
- 提示设计需清晰明确,避免歧义导致模型误解任务目标;
- 生成多个响应会增加计算开销和响应长度,需权衡效率与多样性需求;
- 部分模型可能无法精确模拟概率值,需结合校准机制提升可靠性。
其他缓解模式坍塌的技术
除 Verbalized Sampling 外,学界也在探索其他对抗模式坍塌的方法,包括但不限于:
- 温度调节与top-k / nucleus sampling等解码策略改进;
- 引入多样性正则项的训练目标修改;
- 基于能量模型或扩散机制的生成控制;
- 多智能体辩论框架下的共识生成机制。
然而,VS 的独特优势在于其实现简便、无需改动模型结构或重新训练,即可在推理阶段即时启用。
列出多个候选答案并估算概率值
结果特点
相较于传统单一输出模式,该方法生成的答案具有更高的多样性,能够覆盖高、中、低概率的多种可能性。而常规方式容易导致回答趋同,陷入“模式坍塌”,缺乏新颖性和创造性。
verbalized-sampling
计算成本对比
- 传统方法:计算成本较低,仅需单次生成即可得出结果。
- 多候选生成(如VS策略):成本较高,因需多次生成候选答案并进行概率估算,消耗更多计算资源与时间。
实施方法
1. 系统提示词设定(适用于持续对话场景)
在对话初始阶段配置系统级指令,使模型在整个交互过程中均采用变体采样(Verbalized Sampling, VS)策略。例如:
你是一个乐于助人的助手。对于每个查询,请生成一组五个可能的回复,每个回复都放在单独的 <response> 标签内。每个 <response> 必须包含 <text> 和一个数字 <probability>。请从分布的尾部随机采样,使得每个回复的概率都低于 0.10。
2. 直接用户提示(适用于单次请求)
将VS指令嵌入具体提问中,实现一次性的多路径响应生成:
<instructions>
为用户的查询生成5个回复,每个回复都放在单独的 <response> 标签内。每个 <response> 必须包含 <text> 和一个数字 <probability>。请从分布的尾部随机采样,使得每个回复的概率都低于 0.10。
</instructions>
用户查询:给我讲一个关于熊的短篇故事。
3. 通过代码库调用(面向开发与研究用途)
利用专用Python库执行变体采样操作:
from verbalized_sampling import sample
responses = sample("Write a short story about a bear.", k=5, return_probs=True)
应用场景与实际效果
创意写作
应用于诗歌、短篇故事等创作任务时,语义多样性可提升1.6至2.1倍,经人类评估后得分显著高于传统生成方式。
对话模拟
在谈判训练、客服仿真等场景中,AI展现出更接近真实人类行为的反应复杂度和决策多样性。
开放式问答
面对如“列举美国州名”这类问题,生成答案的分布更贴近真实统计分布,避免集中于常见项。
合成数据生成
使用VS生成的数据作为训练集来训练下游模型,其性能表现优于采用传统采样方法构建的数据集。
注意事项
计算开销
由于需要生成多个候选答案并估算各自概率,Token消耗量增加,可能导致响应延迟。
模型依赖性
该策略在GPT-4、Claude等大型先进模型上效果明显;而对于能力较弱的模型,其概率估算准确性不足,影响整体效果。
与温度参数协同使用
VS策略与调节Temperature参数具有互补性,结合使用可在稳定性与创造性之间取得更好平衡。
其他缓解模式坍塌的技术手段
- 最小P采样 (Min-P Sampling):一种动态截断采样技术,在保证输出稳定的同时增强多样性。
- 多样化采样 (DivSampling):通过轻微扰动提示词生成更多差异化候选方案,提升输出广度。