首页 / 今日AI / 正文
苹果研究:现有 AI 大模型多靠记忆,并非真正推理

Time:2025年06月09日 Read:45 评论:0 作者:zhen

近日,苹果机器学习研究中心发表论文指出,当前的 AI 模型在复杂任务中并不具备真正的思维与推理能力,更多是依赖模式匹配和记忆。这一研究对 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking 等前沿 “大型推理模型” 进行了系统评估。
研究发现,这些模型虽能生成详细 “思考链”,在中等复杂度任务中表现突出,但推理能力存在本质局限。当问题复杂度超过特定临界点,模型性能会急剧下滑至 “零准确率”。例如,在解决复杂逻辑谜题时,一旦难度提升,模型就无法给出正确答案。并且在推理过程中,即便算力充足,随着问题难度增加,模型用于 “思考” 的 token 数量不增反降,揭示了现有推理方法的根本缺陷。
论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。目前业界评估模型多聚焦于数学和编程基准测试的最终答案准确性,这易忽略数据污染问题,也无法洞察模型内部推理轨迹的结构和质量。为此,苹果研究人员采用可控解谜环境,精确操控问题组成复杂性,同时保持逻辑结构一致,得以深入探究模型的 “思考” 过程。
研究团队将模型表现划分为三个阶段:低复杂度任务中,传统大模型(如 Claude-3.7 无思维版本)表现更好;中等复杂度任务里,具备思维机制的大型推理模型(LRMs)占据优势;而面对高复杂度任务,两类模型均完全失效。研究还特别指出,LRMs 在精确计算方面存在短板,无法运用显式算法,在不同谜题间推理时也缺乏一致性。
此项研究对当前基于既定数学基准的 LRMs 评估范式提出了质疑,强调需要更精细的实验设置来深入研究相关问题。通过可控谜题环境的运用,该研究为理解语言推理模型的能力与局限提供了深刻见解,也为后续研究指明方向。研究人员表示,这些发现凸显了现有 LRMs 的优缺点,引发了对系统推理本质的思考,对模型设计和部署意义重大 。

来【龙头AI网】了解最新AI资讯!

标签:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

排行榜
龙头AI
欢迎您来到龙头AI是一家AI音乐网,主要提供AI歌词,AI写歌,Ai工具,Ai获客,是Ai时代最有潜力的Ai综合网站!
龙头AI
龙头AI
龙头AI
龙头AI
龙头AI
龙头AI
龙头AI
欢迎您来到龙头AI是一家AI音乐网,主要提供AI歌词,AI写歌,Ai工具,Ai获客,是Ai时代最有潜力的Ai综合网站!