OpenAI中文版论文-用过程监督提高数学推理能力

323

收藏 2023-07-03

近年来，大语言模型在复杂多步推理能力方面有了很大提高。然而，即使是最先进的模型也会经常产生逻辑上的错误。为了训练出更可靠的模型，我们可以转而采用结果监督，为最终结果提供反馈，或者转向过程监督，为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性，以及考虑到人类反馈的成本较高，因此仔细比较这两种方法就显得很重要。最近的文献已经开始了这种比较，但仍有许多问题存在。我们自己进行了调查，发现在训练模型以解决具有挑战性的MATH数据集的问题方面，过程监督明显优于结果监督。我们的过程监督模型解决了MATH测试集的一个代表性子集中78%的问题。此外，我们表明，主动学习极大地提高了过程监督的功效。为了支持相关的研究，我们还发布了PRM800K，这是一个完整数据集，用于训练我们的最佳奖励模型中的80万个步骤级人类反馈标签。

OpenAI中文版论文-用过程监督提高数学推理能力.pdf
大小:(4.41 MB)

只需: RMB 15元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群