全部版块 我的主页
论坛 数据科学与人工智能 人工智能
1168 13
2025-06-26

大模型到底有没有推理能力?评一场AI圈的嘴架

过去的一个多星期里,AI圈打了一场嘴架。

一、先动手的是苹果,他发布了一篇论文,

名为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》。标题直接就是说推理存在着幻觉。

  • 文章的大致内容如下。

首先文章说思维链和自我反思机制,让LRM比传统LLM看起来表现似乎更好,也被视为迈向通用人工智能的关键。但是现在的评估存在很大局限性。

文章认为,最先进的LRM,包括o3-mini,DeepSeek-R1和Claude-3.7,都还不具备泛化的推理能力。同时遇到真正的高复杂推理时,所有的模型都会崩溃掉。

为了论证这一点,论文中用了四种游戏来测试,包括汉诺塔,跳棋,过河问题,和堆积木。

测试中通过调整游戏参数,比如汉诺塔的圆盘层数,跳棋数量等元素,来控制游戏复杂度。

然后对于低复杂度的任务,没有思考功能的模型,表现更好,而带思考功能的模型往往会“想多了”,即在正确答案之外会做很多大量无用的思考,其实也就是模型本身其实并不能对这类简单问题正确地评估。

对于中等复杂的任务,带思考的模型开始出现优势,思考过程有助于找到更好的解决方案。但是会经历了大量错误路径遍历。

当复杂度继续增加超过临界点的时候,所有模型,不论是否带思考模式的,都会崩溃掉(无法给出正确答案)。这时即使提示汉诺塔要使用递归方法,模型也无法正确运行。

所以文章认为LRMs其实并不是在做通用推理,而依然是依赖训练数据。

同时文章还发现,基于结果的评估过于关注最终答案,忽视了过程逻辑的一致。换句话说,LRMs可能可以生成最终的正确答案,但是中间的步骤很可能是错的,比如把汉诺塔的大盘放在了小盘之上。

二、Claude的反击

苹果这篇文章发出来,被部分业界人士认为是“U can U up,No can 瞎 BB”的怨妇牢骚。没几天,被点了名的Claude不干了,Claude的技术人员这次直接让AI当第一作者,写了一篇反击的论文发表出来,标题是《The Illusion of the Illusion of Thinking 》,就是说认为推理存在幻觉这才是有幻觉。

也来看看这篇反击的文章的内容吧。

反击的内容主要是几方面,首先认为前文对推理失败的判定是有问题的,因为像汉诺塔这种问题,随着圆盘数的增多,操作步骤是激增的。因此要模型给出全部的操作步骤,就出发了模型的token数量上限了,这并不是模型推理不了。

而如果换一种提问方式,让大模型求解一个15层的汉诺塔,但是不用给出详细步骤,只要写一个可以输出步骤的程序就行,这时所有大模型都能完成任务。

同时文章认为前文在调整模型参数时,产生了一些数学上无解的组合,比在如过河问题中。这些本来无解的组合让大模型求解,不能说大模型没有给出答案。

文章还认为不能仅凭步骤来评判复杂度,比如汉诺塔的步骤虽然多,但是复杂度低,过河问题的步骤少,但是复杂度却高。

三、两篇论文都很精彩。来说说我怎么看待这场嘴架吧。

  • 1、我确实觉得至少当前,讲所谓的“泛在”推理,是不太现实的。这一点苹果提出的还是比较冷静的观点。一个基本的逻辑就是人都难以超越自己的认知来进行思考,大模型又凭什么去“泛在”推理呢。关于人无法超越自己认知思考,我们后面单独讨论一小段。

  • 2、Claude所举的核心论据,其实都挺水的,有点诡辩(由于是AI主创的也能理解)。比如说他认为汉诺塔复杂度高了消耗token太多,所以改了一个让大模型编程的方法,证明大模型可以思考汉诺塔问题。然而对大模型而言,编写一段程序和自行解出步骤完全是两件不同的事,编写程序对大模型而言,可以直接从训练数据中提取结果,完全没难度。所以我认为这不能证明什么。

  • 至于说对无解问题让大模型求解这事,如果大模型真的具备泛在推理能力,那就应该明确指出这个题出错了,而不是陷入无法自拔的推理穷举中,不是吗。

  • 3、但我比较同意双方在文中提到的的评估方法问题。不论苹果提出的不能只重视结果,要看过程,还是Claude提出的机械的步骤重复和解决问题是不能等同,这些点都很重要。我理解未来也是需要一些行业评估标准的,有很可能会有一些未来的学术成果在这方面。

四、最后说说我对推理和认知之间关系的看法。

我们都知道,现在的科学观点认为宇宙中存在大量的暗物质,但是我们目前观测不到这些暗物质。暗物质必然存在的理论依据是因为基于当前的科学计算,可见物质的质量不足以维持星系的稳定存在。

我们说,这其实就是一种推理,因为我们有一套完整力学理论,这套理论在很多地方都被证明是对的,现在遇到新问题了,我们依据验证过的推理出可能存在我们看不见的物质,以满足我们这个理论,尽管这些物质我们现在还看不见。这是基于已有认知的推理。

然而。熟悉科学史的同学都知道,早在发现相对论之前,人们就发现水星的运动异常,被称为“进动”。当时这种现象,按当时的传统力学计算,被解释为水星旁边存在一颗没有发现的行星。当然大家一直也没找到这颗不存在的行星,直到相对论诞生了,告诉大家之前其实是算错了。还有“以太”,人们在搞清电磁波原理之前,就已知道光是一种波了,波的传播都需要介质,因此光波当然也需要介质。于是人们认为宇宙中一定充满了一种我们看不见的介质,叫“以太”,光就是借助这个东西传播的。当然后来我们也没有找到以太,而是发现了电磁波不需要借助其他传播介质。

所以还有另一种可能,就是根本没有什么暗物质,是现在还有没发现的理论,我们对星系的运行计算得不对而已。当然,我的这种判断本身也是推理,依据的是水星进动和以太的故事。也还是基于认知的范围在进行推理。

我前面发表过这个观点,即语言模型不可能是智能的本质,所以语言模型再怎么强化,也是无法形成所谓的通用智能的。通用的推理智能,首先要解决一些数学问题,比如说高斯当年对正十七边形尺规作图的求解,如果一个模型能在没有前期数据训练的条件下,解出这个问题,大概是能看到一些智能的希望,否则我觉得当前所谓的智能确实就是基于训练数据的概率命中。

原文链接: https://mp.weixin.qq.com/s/1gs8NYHPhwVKe1gk7AHUVQ

学习入口:https://edu.cda.cn/goods/show/3814?targetId=6587&preview=0

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ 免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2025-6-26 09:47:47
当复杂度继续增加超过临界点的时候,所有模型,不论是否带思考模式的,都会崩溃掉(无法给出正确答案)。这时即使提示汉诺塔要使用递归方法,模型也无法正确运行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-6-26 09:48:43
我们都知道,现在的科学观点认为宇宙中存在大量的暗物质,但是我们目前观测不到这些暗物质。暗物质必然存在的理论依据是因为基于当前的科学计算,可见物质的质量不足以维持星系的稳定存在。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-6-26 09:49:03
语言模型不可能是智能的本质,所以语言模型再怎么强化,也是无法形成所谓的通用智能的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-6-26 09:49:39
语言模型不可能是智能的本质,所以语言模型再怎么强化,也是无法形成所谓的通用智能的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-6-26 10:52:02
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群