全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
281 0
2023-07-03

近年来,大语言模型在复杂多步推理能力方面有了很大提高。然而,即使是最先进的模型也会经常产生逻辑上的错误。为了训练出更可靠的模型,我们可以转而采用结果监督,为最终结果提供反馈,或者转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及考虑到人类反馈的成本较高,因此仔细比较这两种方法就显得很重要。最近的文献已经开始了这种比较,但仍有许多问题存在。我们自己进行了调查,发现在训练模型以解决具有挑战性的MATH数据集的问题方面,过程监督明显优于结果监督。我们的过程监督模型解决了MATH测试集的一个代表性子集中78%的问题。此外,我们表明,主动学习极大地提高了过程监督的功效。为了支持相关的研究,我们还发布了PRM800K,这是一个完整数据集,用于训练我们的最佳奖励模型中的80万个步骤级人类反馈标签。








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群