DeepSeekMath-V2 是由 DeepSeek-AI 于 2025年11月27日 开源的一款专注于数学推理的模型,核心特性为自验证的数学推导能力。该模型基于 DeepSeek-V3.2-Exp-Base 架构开发,在多个高难度数学竞赛中表现卓越:在 IMO 2025 和 CMO 2024 中均达到金牌水平,在 Putnam 2024 获得 118/120 的高分成绩。
在 IMO-ProofBench 基准测试中,其 Basic 子集准确率接近 99%,Advanced 子集达到 61.9%,略低于 Gemini DeepThink (IMO Gold) 的 65.7%。模型权重已通过 Hugging Face 与 GitHub 公开发布,采用 Apache 2.0 许可协议,支持自由研究与应用部署。
[此处为图片1]
核心技术架构
验证器—生成器—元验证器闭环机制:构建了包含 LLM 验证器、生成器和元验证器的三重反馈系统。其中,验证器用于评估证明过程的质量;元验证器则用于识别并抑制验证器可能出现的“幻觉”判断;验证器还作为奖励模型反向优化生成器,实现自我验证与持续修正的能力。
过程监督与诚实性奖励机制:不仅关注最终答案是否正确,更强调对中间推理步骤的自评(评分标准为1、0.5或0),并要求模型主动指出潜在缺陷。诚实反馈与高质量证明将获得更高的训练奖励,从而提升整体推理可靠性。
自动化标注与数据飞轮系统:利用大规模采样结合元验证器进行过滤,自动构建高质量的标注数据集,形成持续迭代的数据增强循环,有效推动验证器与生成器性能同步提升。
[此处为图片2]
推理阶段计算扩展策略:支持两种增强模式——“顺序精炼”(即多次自检与逐步修正)与“高算力搜索”(包括候选路径生成、并行验证及迭代择优)。这些方法显著提升了 Pass@1 与 Best@k 等关键指标,尤其适用于复杂难题求解。
训练范式设计:采用 GRPO 等强化学习算法,交替优化验证器与生成器,构建出可扩展的自验证训练流程,保障系统长期演进能力。
[此处为图片3]
评测与竞赛表现汇总
| 评测/竞赛 |
成绩与要点 |
说明 |
| IMO 2025 |
解决 5/6 题,约 83.3%,达金牌 |
通过扩展测试时计算实现 |
| CMO 2024 |
总分约 73.8%,达金牌 |
覆盖代数、几何、组合等多种题型 |
| Putnam 2024 |
118/120 |
接近满分水平 |
| IMO-ProofBench Basic |
接近 99% |
基础难度子集 |
| IMO-ProofBench Advanced |
61.9% |
对比 Gemini DeepThink (IMO Gold) 的 65.7% |
| 内部 CNML-Level |
代数/几何/数论/组合/不等式均优 |
对标国内高中数学联赛难度 |
上述结果充分展现了该模型在推理过程严谨性以及应对高难度问题时的扩展潜力方面的综合优势。
[此处为图片4]
开源信息与使用方式
获取途径:模型参数与完整代码已在 Hugging Face 和 GitHub 平台公开,遵循 Apache 2.0 开源许可,便于二次开发与本地部署。
平台支持情况:国内超算互联网AI社区已上线该模型文件,企业用户与独立开发者均可直接下载,加速产品化落地进程。
推荐应用场景:适用于高等级竞赛数学题解析、定理证明辅助、多步逻辑推导任务以及科研中的形式化验证等场景。对于简单的数值运算任务,通用语言模型可能更具效率优势。
[此处为图片5]
上手建议:推荐结合“顺序精炼”与“高算力搜索”策略,充分发挥其自验证机制与迭代修正能力,以获得最优输出质量。
优势与局限分析
主要优势:
- 采用过程导向的自验证训练框架,大幅降低“答案正确但推导错误”的风险。
- 在 IMO、CMO、Putnam 等国际顶级数学竞赛中达到金牌级甚至接近满分水平,展现出强大的通用数学推理能力。
- 完全开源可定制,为学术界和工业界在自动证明系统、智能教育工具、推理引擎等领域提供了良好的拓展基础。
当前局限:
- 在 ProofBench-Advanced 等更具挑战性的子集中,性能仍略逊于 Gemini DeepThink (IMO Gold)。
- 依赖较大的推理时计算资源与验证开销,运行成本较高;对于简单计算任务并非最高效选择。
- 主要面向自然语言形式的证明生成,与 Lean、Isabelle 等形式化证明系统存在差异,但两者可互为补充,协同使用提升验证完整性。