ARC-AGI-3测试揭示GPT-5.5和Opus 4.7得分均不足1%,暴露三大系统性推理缺陷
ARC Prize Foundation对GPT-5.5和Claude Opus 4.7在ARC-AGI-3基准测试中的表现进行分析,发现两者在135个全新抽象推理环境中得分均低于1%,远逊于人类满分表现。研究揭示三大系统性错误:一是模型能识别局部反馈但无法构建整体世界模型;二是模型将新环境误认为训练数据中的经典游戏(如Tetris、Breakout),导致策略错误;三是即使偶然成功通关也未能理解成功原因,反而固化错误理论。Opus 4.7倾向于过度自信地压缩观察为错误理论,GPT-5.5则难以收敛到正确假设。研究表明当前AI仍依赖模式匹配而非真正因果推理,仅靠扩大参数和数据无法实现AGI。
阅读原文