大模型到底有没有推理能力？评一场AI圈的嘴架

过去的一个多星期里，AI圈打了一场嘴架。

一、先动手的是苹果，他发布了一篇论文，

名为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》。标题直接就是说推理存在着幻觉。

文章的大致内容如下。

首先文章说思维链和自我反思机制，让LRM比传统LLM看起来表现似乎更好，也被视为迈向通用人工智能的关键。但是现在的评估存在很大局限性。

文章认为，最先进的LRM，包括o3-mini，DeepSeek-R1和Claude-3.7，都还不具备泛化的推理能力。同时遇到真正的高复杂推理时，所有的模型都会崩溃掉。

为了论证这一点，论文中用了四种游戏来测试，包括汉诺塔，跳棋，过河问题，和堆积木。

测试中通过调整游戏参数，比如汉诺塔的圆盘层数，跳棋数量等元素，来控制游戏复杂度。

然后对于低复杂度的任务，没有思考功能的模型，表现更好，而带思考功能的模型往往会“想多了”，即在正确答案之外会做很多大量无用的思考，其实也就是模型本身其实并不能对这类简单问题正确地评估。

对于中等复杂的任务，带思考的模型开始出现优势，思考过程有助于找到更好的解决方案。但是会经历了大量错误路径遍历。

当复杂度继续增加超过临界点的时候，所有模型，不论是否带思考模式的，都会崩溃掉（无法给出正确答案）。这时即使提示汉诺塔要使用递归方法，模型也无法正确运行。

所以文章认为LRMs其实并不是在做通用推理，而依然是依赖训练数据。

同时文章还发现，基于结果的评估过于关注最终答案，忽视了过程逻辑的一致。换句话说，LRMs可能可以生成最终的正确答案，但是中间的步骤很可能是错的，比如把汉诺塔的大盘放在了小盘之上。

二、Claude的反击

苹果这篇文章发出来，被部分业界人士认为是“U can U up，No can 瞎 BB”的怨妇牢骚。没几天，被点了名的Claude不干了，Claude的技术人员这次直接让AI当第一作者，写了一篇反击的论文发表出来，标题是《The Illusion of the Illusion of Thinking 》，就是说认为推理存在幻觉这才是有幻觉。

也来看看这篇反击的文章的内容吧。

反击的内容主要是几方面，首先认为前文对推理失败的判定是有问题的，因为像汉诺塔这种问题，随着圆盘数的增多，操作步骤是激增的。因此要模型给出全部的操作步骤，就出发了模型的token数量上限了，这并不是模型推理不了。

而如果换一种提问方式，让大模型求解一个15层的汉诺塔，但是不用给出详细步骤，只要写一个可以输出步骤的程序就行，这时所有大模型都能完成任务。

同时文章认为前文在调整模型参数时，产生了一些数学上无解的组合，比在如过河问题中。这些本来无解的组合让大模型求解，不能说大模型没有给出答案。

文章还认为不能仅凭步骤来评判复杂度，比如汉诺塔的步骤虽然多，但是复杂度低，过河问题的步骤少，但是复杂度却高。

三、两篇论文都很精彩。来说说我怎么看待这场嘴架吧。

1、我确实觉得至少当前，讲所谓的“泛在”推理，是不太现实的。这一点苹果提出的还是比较冷静的观点。一个基本的逻辑就是人都难以超越自己的认知来进行思考，大模型又凭什么去“泛在”推理呢。关于人无法超越自己认知思考，我们后面单独讨论一小段。
2、Claude所举的核心论据，其实都挺水的，有点诡辩（由于是AI主创的也能理解）。比如说他认为汉诺塔复杂度高了消耗token太多，所以改了一个让大模型编程的方法，证明大模型可以思考汉诺塔问题。然而对大模型而言，编写一段程序和自行解出步骤完全是两件不同的事，编写程序对大模型而言，可以直接从训练数据中提取结果，完全没难度。所以我认为这不能证明什么。
至于说对无解问题让大模型求解这事，如果大模型真的具备泛在推理能力，那就应该明确指出这个题出错了，而不是陷入无法自拔的推理穷举中，不是吗。
3、但我比较同意双方在文中提到的的评估方法问题。不论苹果提出的不能只重视结果，要看过程，还是Claude提出的机械的步骤重复和解决问题是不能等同，这些点都很重要。我理解未来也是需要一些行业评估标准的，有很可能会有一些未来的学术成果在这方面。

四、最后说说我对推理和认知之间关系的看法。

我们都知道，现在的科学观点认为宇宙中存在大量的暗物质，但是我们目前观测不到这些暗物质。暗物质必然存在的理论依据是因为基于当前的科学计算，可见物质的质量不足以维持星系的稳定存在。

我们说，这其实就是一种推理，因为我们有一套完整力学理论，这套理论在很多地方都被证明是对的，现在遇到新问题了，我们依据验证过的推理出可能存在我们看不见的物质，以满足我们这个理论，尽管这些物质我们现在还看不见。这是基于已有认知的推理。

然而。熟悉科学史的同学都知道，早在发现相对论之前，人们就发现水星的运动异常，被称为“进动”。当时这种现象，按当时的传统力学计算，被解释为水星旁边存在一颗没有发现的行星。当然大家一直也没找到这颗不存在的行星，直到相对论诞生了，告诉大家之前其实是算错了。还有“以太”，人们在搞清电磁波原理之前，就已知道光是一种波了，波的传播都需要介质，因此光波当然也需要介质。于是人们认为宇宙中一定充满了一种我们看不见的介质，叫“以太”，光就是借助这个东西传播的。当然后来我们也没有找到以太，而是发现了电磁波不需要借助其他传播介质。

所以还有另一种可能，就是根本没有什么暗物质，是现在还有没发现的理论，我们对星系的运行计算得不对而已。当然，我的这种判断本身也是推理，依据的是水星进动和以太的故事。也还是基于认知的范围在进行推理。

我前面发表过这个观点，即语言模型不可能是智能的本质，所以语言模型再怎么强化，也是无法形成所谓的通用智能的。通用的推理智能，首先要解决一些数学问题，比如说高斯当年对正十七边形尺规作图的求解，如果一个模型能在没有前期数据训练的条件下，解出这个问题，大概是能看到一些智能的希望，否则我觉得当前所谓的智能确实就是基于训练数据的概率命中。

原文链接： https://mp.weixin.qq.com/s/1gs8NYHPhwVKe1gk7AHUVQ