
这项开创性研究由Salesforce AI Research的Shrey Pandit、Austin Xu、Xuan-Phi Nguyen、Yifei Ming、Caiming Xiong和Shafiq Joty共同完成,于2025年10月15日发布,论文编号为arXiv:2510.13744v1。读者可通过该编号查阅完整论文内容。
一、AI数学推理的“监考官”危机
在传统教学中,教师批改数学作业时不仅关注最终答案是否正确,更重视解题过程中的逻辑严密性。即使学生得出正确结果,若中间步骤存在错误或跳跃,依然无法获得满分。如今,人工智能在数学推理方面已取得突破性进展,甚至能在国际数学奥林匹克竞赛中斩获金牌。然而,一个关键问题随之浮现:谁来审核AI所提交的“答卷”?
当前的AI数学系统虽具备强大的解题能力,但在推理过程中仍可能出现逻辑漏洞、跳步或依据不足的情况。与学生需要老师批改作业以获得反馈类似,这些AI模型在训练阶段也依赖大量高质量的评判信号进行优化。而负责提供这类反馈的“评判员”,正是所谓的验证器(verifier)系统。
然而,Salesforce研究团队发现了一个严重脱节现象:现有的验证系统远远落后于前沿AI的实际能力。这相当于用初级教育标准去评估高等数学研究水平,显然难以胜任。这种不匹配导致许多看似正确的AI推理过程未能被有效识别出潜在缺陷,从而影响了整个系统的可靠性与可改进空间。
具体而言,研究人员观察到,在处理由顶尖AI生成的复杂数学推导时,传统验证器的表现急剧下滑。例如,某系统在常规测试中准确率达78.3%,但在Hard2Verify新基准下骤降至37.3%。这一巨大落差揭示了当前AI数学生态中的核心短板——缺乏足够强大的“教师型”AI来指导最先进的“学生型”AI。
二、打造史上最严格的AI数学“考场”
为了真实衡量验证器在高阶场景下的判断能力,研究团队构建了一个名为Hard2Verify的全新评估基准。其设计理念类似于为最优秀的学生设计最具挑战性的考试,旨在全面检验评判系统的极限性能。
该基准的题目来源极为严苛,全部选自近年来最高级别的数学竞赛题库,包括2024年与2025年的国际数学奥林匹克(IMO)、普特南数学竞赛(Putnam Competition)以及加拿大数学奥林匹克(CMO)等赛事中的80道难题。这些题目不仅具有极高的思维深度和技巧要求,且均为最新出现,确保参与测试的AI此前未接触过相关训练数据。
更重要的是,Hard2Verify特别聚焦于检测验证器能否识别出最强AI在解答这些难题时所犯的细微但关键的推理错误。为此,研究团队投入超过500小时的人工标注工作,对每一道题的多种生成路径进行了精细标注,区分出哪些是表面合理但实质错误的“伪正确”推导。
这一过程模拟了真实学术评审中专家逐行审阅证明的过程,使得该基准成为目前最严格、最贴近实际需求的AI数学推理验证体系。它不再仅依赖最终答案匹配,而是深入考察每个推理环节的合理性、连贯性与数学严谨性。
通过这一基准的测试,研究清晰地揭示了现有验证机制的局限性:它们大多基于简单题型和标准化流程训练而成,面对开放性、多路径、高抽象度的真实数学挑战时,往往力不从心。这也意味着,当前许多被认为是“高性能”的AI数学系统,其可信度可能被严重高估。
研究团队特别关注开放性问题的设计,这类问题要求模型进行完整的逻辑推导,而不是简单地输出一个数值答案。例如,“证明某个数学定理”就属于典型的开放式任务。在构建的Hard2Verify基准中,高达78.5%的题目为开放性问题。这意味着验证器无法仅通过比对最终结果来判断正误,而必须深入分析整个推理链条中的每一个步骤。
为了生成解答,研究团队选用了三个当前最强大的AI模型:GPT-5(启用高推理模式)、Gemini 2.5 Pro和Claude Sonnet 4(思维链模式)。这些模型相当于被派去参加一场极高难度考试的顶尖学生。它们在解题过程中会输出详细的中间步骤,完整展示其推理路径。值得注意的是,部分复杂题目的求解过程耗时可达15分钟以上,反映出高强度的计算与逻辑处理需求。

接下来是关键的人工评估阶段。研究团队联合专业数学标注机构Turing,聘请了一批拥有数学博士学位的专家,对每一步推理进行严格评审。这些专家扮演着极为严苛的评分者角色,不仅要检查计算是否准确,还需确认每个逻辑跳跃是否合理、引用的定理是否适用、结论是否有充分支撑。
整个标注流程采用“零容忍”原则——只要某一步存在错误,或后续步骤依赖于已出错的前提,该步骤即被判定为错误。这种标准类似于顶级数学竞赛的评分机制,任何细微疏漏都会导致失分。为确保一致性与准确性,所有标注内容经历了四轮审查:初始标注后接续三轮独立复核,最大程度减少主观偏差。
最终形成的高质量数据集包含1860个精细标注的解题步骤,覆盖200个完整的AI生成解答。每个步骤平均接受超过90分钟的专业评估,个别最复杂的解答甚至耗费长达4小时完成评审。这一严谨程度远超以往任何用于评估AI数学能力的基准测试。
为了全面衡量验证器的能力,Hard2Verify设计了三项不同层级的任务:
- 步骤级验证:判断解题过程中的每一个单独步骤是否正确;
- 整体解答验证:评估整个解题流程是否完全无误;
- 错误定位:识别并指出第一个出现错误的具体步骤位置。
这三项任务从多个维度检验验证器的表现,如同评估一位教师批改作业的能力:既需发现单个错误,又能把握整体质量,还能精准定位问题源头。
当研究团队使用Hard2Verify对29种不同的验证器进行测试时,结果令人震惊。即便是最先进的系统,在面对真正复杂的数学推理时也频繁“看走眼”,就像经验丰富的考官在极端难题面前也会判断失误。
实验结果显示,开源验证器的整体表现显著落后于商业闭源模型。其中,GPT-5在步骤级验证任务中取得了86.53%的平衡准确率,位居榜首;Gemini 2.5 Pro紧随其后,达到83.37%。尽管如此,这些领先模型的表现仍远未达到完美水平。
更值得关注的是其他验证器的严重退化现象。一些在传统基准如ProcessBench上表现优异的模型,在Hard2Verify上的性能大幅下滑。以Qwen2.5-Math-PRM-72B为例,该模型专为数学推理训练,在ProcessBench上得分高达78.3%,但在Hard2Verify中仅获得37.3%,性能下降超过一半。
深入分析揭示了一个普遍存在的问题:多数验证器表现出明显的“好好先生综合症”。它们倾向于将绝大多数步骤标记为正确,仿佛是一位不愿挑错的宽容教师。具体表现为:虽然能够较好识别正确的推理步骤(真阳性率较高),但在捕捉错误方面极度乏力(真负率极低)。
这一现象背后的根本原因在于,许多验证器缺乏足够的深层数学理解能力,难以察觉那些表面合理但实则存在逻辑漏洞的推理。它们更像是只能阅读文字表面含义的阅卷人,无法穿透复杂的数学结构做出准确判断。
此外,研究还发现验证能力与模型自身的数学解题能力高度正相关。那些本身就具备强大数学推理能力的模型,往往也能更有效地识别他人的错误。这正如一位功底深厚的数学教师更容易发现学生作业中的隐蔽缺陷。相反,数学能力较弱的模型即使经过专门的验证训练,依然难以胜任复杂推理的审核工作。
在错误定位任务中,情况更为严峻。大多数验证器的表现接近随机猜测,有些甚至低于随机水平。这表明它们不仅难以识别错误,更无法准确定位错误发生的起点。就如同一名教师只能模糊感知作业存在问题,却无法指出具体出错环节。
研究团队进一步测试了不同提示策略对验证效果的影响。结果出乎意料:直接提问“第一个错误出现在哪里?”的效果通常不如引导验证器先逐项评估每一步,再从中推断错误位置。这一发现表明,促使验证器执行更细致、分步的分析流程,有助于提升其判断准确性——正如让教师详细写出批改理由,往往能带来更可靠的评分结果。
为进一步揭示验证器内部工作机制,研究团队开展了一系列精密的分析实验,试图“解剖”其决策过程,探究其在判断过程中究竟依赖哪些信号与特征。
[此处为图片2]
研究团队首先探讨了一个关键问题:为验证器提供更多的“思考时间”是否能够提升其性能?他们通过让同一验证器在不同推理强度下运行来进行测试,类似于让学生用不同时长检查作业。实验结果表明,增加推理时间显著提高了验证效果。以gpt-oss-20B模型为例,其在低推理模式下的准确率为59.69%,而在高推理模式下提升至70.93%,增幅超过11个百分点。
这一发现揭示出,更深入的“思考”过程有助于验证器识别更多潜在错误——正如教师花费更多时间审阅作业时能发现更多疏漏。然而,研究也尝试了另一种策略:让验证器生成多个独立判断,并通过投票决定最终结论。尽管该方法基于“集体智慧”的理念,但实际效果有限,远不如延长单个验证器推理时间来得有效。
这种对比凸显了验证任务的本质特征:它是一个依赖前序理解、逐步推进的序贯分析过程,而非可并行处理的独立判断任务。这与数学证明的核查类似——必须逐层推导,难以通过简单多数表决解决复杂逻辑问题。
随后,研究人员考察了AI系统的自我验证能力,即模型对其自身生成解答的评估表现。结果显示,不同能力层级的模型展现出明显差异。顶级模型如GPT-5在自我审查中表现出较强的稳定性与客观性;而较弱模型则倾向于过度宽容,尤其像Claude Sonnet 4几乎默认所有步骤正确,缺乏批判性反思。
跨模型验证的结果进一步揭示了验证能力的相对性:验证器更容易识别来自较弱生成模型的错误,却对更强模型输出中的问题检测能力下降。这类似于中等水平教师能轻易发现差生的明显错误,却可能忽略优等生解答中的细微缺陷。值得注意的是,所有验证器均认为Gemini 2.5 Pro所生成的解答最难评估,推测原因在于其推理路径更为复杂或错误更具隐蔽性。

研究还深入分析了一个根本性问题:验证是否比生成更容易?通过对同一模型在问题求解和答案验证两种任务上的表现进行比较,团队得出一个积极结论:对于大多数题目,验证的成功率普遍高于独立生成解答的能力。
这一发现具有深远意义——它意味着我们未必需要构建强于生成器的验证器才能实现有效监督。一个稍弱的模型仍有可能胜任对更强模型输出的正确性判定,正如经验丰富的普通教师虽不及天才学生聪慧,但仍能判断其解题过程的正误。这对构建高效、实用的AI验证系统提供了理论支持和发展方向。
为了进一步理解验证失败的原因,研究团队系统性地分析了大量误判案例。他们发现一种普遍存在的错误模式:验证器常会接受那些表面合理但论证不充分的推理步骤。例如,在一道国际数学奥林匹克竞赛题中,AI生成器提出一个广义数学命题,却仅在特定情形下进行了验证。人类专家认定此为逻辑跳跃,属于错误,但验证器却判定为正确。
[此处为图片2]
这类案例暴露出现有验证器的核心短板:在评估论证完整性与逻辑严密性方面仍存在严重不足,容易被形式上连贯但实质上缺失关键推理链的解答所误导。
未来展望与深远影响
Hard2Verify基准的推出不仅暴露了当前AI验证机制的局限,也为整个数学推理领域的发展指明了新方向。这项研究如同一次警钟提醒我们:在惊叹于AI强大生成能力的同时,必须同步建立可靠的质检体系。
从技术演进角度看,未来亟需开发新一代验证器,不仅要具备深厚的数学理解力,还需擅长捕捉隐匿的逻辑漏洞和不完整的推导链条。这就如同培养专业化的数学评审专家——不仅掌握知识,更要拥有敏锐的纠错洞察力。
研究结果同时指出,单纯扩大模型参数规模并非解决验证难题的最佳路径。许多大型模型在Hard2Verify测试中表现不佳,说明验证能力不能仅靠算力堆叠,而更依赖专门化训练与精细化架构设计。这意味着AI发展应转向“质量优先”而非“规模至上”的新范式。
在AI训练方法层面,本研究带来重要启示:当前广泛使用的强化学习框架若依赖有缺陷的验证器作为奖励信号来源,则可能导致整个学习过程偏离正确轨道。这好比由一名不合格的教师指导学生,最终可能强化错误而非纠正偏差。因此,提升验证器本身的可靠性,应成为增强AI数学推理能力的首要任务。
从应用角度来看,该研究对AI系统在教育、科研、工程等高精度领域中的部署具有现实指导价值。这些场景不能仅依赖AI给出的最终答案,更需要可信的方法来确认其推理全过程的正确性。Hard2Verify为此类系统的能力评估与选型提供了统一且具挑战性的衡量标准。
此外,研究揭示了一个更广泛的挑战:随着AI能力持续跃升,评估手段必须同步进化。传统基准很快会被超越而失去效度,我们必须不断设计更新、更难、更具区分度的测试工具。这正如教育体系需持续升级考试难度以匹配学生能力的增长,评估机制的革新同样是AI健康发展不可或缺的一环。
这项研究为开源AI社区贡献了重要资源与明确的发展方向。目前,Hard2Verify基准已对外公开,为研究人员提供了一个标准化的评估框架。这一平台的建立将激发更多关于AI验证机制的研究,助力整个技术领域的持续进步。同时,研究结果也揭示出当前开源模型在推理验证方面仍存在显著不足,这为社区未来的优化工作提供了清晰的目标。
从更深层次来看,该研究触及了人工智能可信度的核心议题。随着AI逐步应用于法律、科研、工程等高风险领域,确保其输出具备高度准确性与逻辑严谨性变得至关重要。数学推理作为其中的基础场景,只是验证技术应用的起点。未来,类似的验证方法有望拓展至科学发现、法律推论以及复杂系统设计等多个依赖精确性的领域。

Hard2Verify基准的真正意义不仅在于衡量现有AI系统的验证能力,更在于推动构建更加稳健和可信赖的人工智能体系。它提醒我们,在不断追求AI生成能力突破的同时,必须同步建立完善的质量审查机制。唯有如此,AI在数学推理等方面的能力才能真正释放潜力,为社会创造实质价值。
这项研究传递出一个关键观点:AI的进步不应仅以“能做什么”来衡量,更应关注“能否确认所做的事是正确的”。在AI能力飞速发展的当下,Hard2Verify强调了生成能力与验证能力之间的平衡发展,倡导技术演进必须建立在可靠性和可验证性的基础之上。对于关注AI数学推理前沿动态的研究者而言,这项工作不仅清晰呈现了当前面临的技术瓶颈,也为后续探索指明了路径。
Q&A
Q1:Hard2Verify基准和传统数学AI测试有什么区别?
A:Hard2Verify专注于评估AI验证器是否能够准确识别顶级模型在解决高难度数学问题时所犯的错误,而传统测试通常只关注AI是否能得出正确答案。可以类比为:传统测试只看考试分数,而Hard2Verify则是在考察批改试卷的老师是否具备足够的判别能力。
Q2:为什么AI验证器在Hard2Verify上表现如此不佳?
A:主要原因在于许多验证器存在“好好先生综合症”,即倾向于默认所有推理步骤都正确,缺乏对细微但关键数学错误的辨识能力。尽管这些验证器在常规任务中表现良好,但在面对前沿AI生成的高度复杂且隐蔽的错误推理链时,往往无法有效识别问题。
Q3:Hard2Verify基准对普通公众有何影响?
A:虽然该研究属于技术层面,但它直接影响AI在教育辅助、科学研究等公共领域的可靠性。就如同我们需要信任计算器不会算错一样,公众也需要确信AI提供的数学推导过程是准确无误的。这种可信度将直接决定未来AI在教学支持和科研协作中的实际效用与安全性。