大模型到底有没有推理能力?评一场AI圈的嘴架 过去的一个多星期里,AI圈打了一场嘴架。
一、先动手的是苹果,他发布了一篇论文, 名为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》。标题直接就是说推理存在着幻觉。
首先文章说思维链和自我反思机制,让LRM比传统LLM看起来表现似乎更好,也被视为迈向通用人工智能 的关键。但是现在的评估存在很大局限性。
文章认为,最先进的LRM,包括o3-mini,DeepSeek -R1和Claude-3.7,都还不具备泛化的推理能力。同时遇到真正的高复杂推理时,所有的模型都会崩溃掉。
为了论证这一点,论文中用了四种游戏来测试,包括汉诺塔,跳棋,过河问题,和堆积木。
测试中通过调整游戏参数,比如汉诺塔的圆盘层数,跳棋数量等元素,来控制游戏复杂度。
然后对于低复杂度的任务,没有思考功能的模型,表现更好,而带思考功能的模型往往会“想多了”,即在正确答案之外会做很多大量无用的思考,其实也就是模型本身其实并不能对这类简单问题正确地评估。
对于中等复杂的任务,带思考的模型开始出现优势,思考过程有助于找到更好的解决方案。但是会经历了大量错误路径遍历。
当复杂度继续增加超过临界点的时候,所有模型,不论是否带思考模式的,都会崩溃掉(无法给出正确答案)。这时即使提示汉诺塔要使用递归方法,模型也无法正确运行。
所以文章认为LRMs其实并不是在做通用推理,而依然是依赖训练数据。
同时文章还发现,基于结果的评估过于关注最终答案,忽视了过程逻辑的一致。换句话说,LRMs可能可以生成最终的正确答案,但是中间的步骤很可能是错的,比如把汉诺塔的大盘放在了小盘之上。
二、Claude的反击 苹果这篇文章发出来,被部分业界人士认为是“U can U up,No can 瞎 BB”的怨妇牢骚。没几天,被点了名的Claude不干了,Claude的技术人员这次直接让AI当第一作者,写了一篇反击的论文发表出来,标题是《The Illusion of the Illusion of Thinking 》,就是说认为推理存在幻觉这才是有幻觉。
也来看看这篇反击的文章的内容吧。
反击的内容主要是几方面,首先认为前文对推理失败的判定是有问题的,因为像汉诺塔这种问题,随着圆盘数的增多,操作步骤是激增的。因此要模型给出全部的操作步骤,就出发了模型的token数量上限了,这并不是模型推理不了。
而如果换一种提问方式,让大模型求解一个15层的汉诺塔,但是不用给出详细步骤,只要写一个可以输出步骤的程序就行,这时所有大模型都能完成任务。
同时文章认为前文在调整模型参数时,产生了一些数学上无解的组合,比在如过河问题中。这些本来无解的组合让大模型求解,不能说大模型没有给出答案。
文章还认为不能仅凭步骤来评判复杂度,比如汉诺塔的步骤虽然多,但是复杂度低,过河问题的步骤少,但是复杂度却高。
三、两篇论文都很精彩。来说说我怎么看待这场嘴架吧。 
1、我确实觉得至少当前,讲所谓的“泛在”推理,是不太现实的。这一点苹果提出的还是比较冷静的观点。一个基本的逻辑就是人都难以超越自己的认知来进行思考,大模型又凭什么去“泛在”推理呢。关于人无法超越自己认知思考,我们后面单独讨论一小段。
2、Claude所举的核心论据,其实都挺水的,有点诡辩(由于是AI主创的也能理解)。比如说他认为汉诺塔复杂度高了消耗token太多,所以改了一个让大模型编程的方法,证明大模型可以思考汉诺塔问题。然而对大模型而言,编写一段程序和自行解出步骤完全是两件不同的事,编写程序对大模型而言,可以直接从训练数据中提取结果,完全没难度。所以我认为这不能证明什么。
至于说对无解问题让大模型求解这事,如果大模型真的具备泛在推理能力,那就应该明确指出这个题出错了,而不是陷入无法自拔的推理穷举中,不是吗。
3、但我比较同意双方在文中提到的的评估方法问题。不论苹果提出的不能只重视结果,要看过程,还是Claude提出的机械的步骤重复和解决问题是不能等同,这些点都很重要。我理解未来也是需要一些行业评估标准的,有很可能会有一些未来的学术成果在这方面。
 
四、最后说说我对推理和认知之间关系的看法。 我们都知道,现在的科学观点认为宇宙中存在大量的暗物质,但是我们目前观测不到这些暗物质。暗物质必然存在的理论依据是因为基于当前的科学计算,可见物质的质量不足以维持星系的稳定存在。
我们说,这其实就是一种推理,因为我们有一套完整力学理论,这套理论在很多地方都被证明是对的,现在遇到新问题了,我们依据验证过的推理出可能存在我们看不见的物质,以满足我们这个理论,尽管这些物质我们现在还看不见。这是基于已有认知的推理。
然而。熟悉科学史的同学都知道,早在发现相对论之前,人们就发现水星的运动异常,被称为“进动”。当时这种现象,按当时的传统力学计算,被解释为水星旁边存在一颗没有发现的行星。当然大家一直也没找到这颗不存在的行星,直到相对论诞生了,告诉大家之前其实是算错了。还有“以太”,人们在搞清电磁波原理之前,就已知道光是一种波了,波的传播都需要介质,因此光波当然也需要介质。于是人们认为宇宙中一定充满了一种我们看不见的介质,叫“以太”,光就是借助这个东西传播的。当然后来我们也没有找到以太,而是发现了电磁波不需要借助其他传播介质。
所以还有另一种可能,就是根本没有什么暗物质,是现在还有没发现的理论,我们对星系的运行计算得不对而已。当然,我的这种判断本身也是推理,依据的是水星进动和以太的故事。也还是基于认知的范围在进行推理。
我前面发表过这个观点,即语言模型不可能是智能的本质,所以语言模型再怎么强化,也是无法形成所谓的通用智能的。通用的推理智能,首先要解决一些数学问题,比如说高斯当年对正十七边形尺规作图的求解,如果一个模型能在没有前期数据训练的条件下,解出这个问题,大概是能看到一些智能的希望,否则我觉得当前所谓的智能确实就是基于训练数据的概率命中。
原文链接: https://mp.weixin.qq.com/s/1gs8NYHPhwVKe1gk7AHUVQ