近年来,大语言模型在复杂多步推理能力方面有了很大提高。然
而,即使是最先进的模型也会经常产生逻辑上的错误。为了训练出更可靠的模型,我们可以转而采用结果监督,为最终结果提供反馈,或者转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及考虑到人类反馈的成本较高,因此仔细比较这两种方法就显得很重要。最近的文献已经开始了这种比较,但仍有许多问题存在。我们自己进行了调查,发现在训练模型以解决具有挑战性的MATH数据集的问题方面,过程监督明显优于结果监督。我们的过程监督模型解决了MATH测试集的一个代表性子集中78%的问题。此外,我们表明,主动学习极大地提高了过程监督的功效。为了支持相关的研究,我们还发布了PRM800K,这是一个完整数据集,用于训练我们的最佳奖励模型中的80万个步骤级人类反馈标签。