ARC-AGI-3：为什么最强的模型只得了 0.26 分

上周 Chollet 发了 ARC-AGI-3。核心数字就两个：

人类得分 100%。GPT-5.4、Gemini 3.1 Pro 这些最强的模型，得了 0.26%。

不是 26。零点二六。

01 ARC-AGI 这几代干了什么

Chollet 做这件事挺久了：

规律很稳定：每个基准都比实际瓶颈早两年指出来。ARC-AGI-3 在说下一个会卡在哪。

之前的 ARC 是静态的——给你个网格，补全规律。ARC-AGI-3 是回合制交互游戏。

几百个手工做的游戏环境，人类游戏设计师设计的。把 AI 扔进去：

AI 要自己探索，搞清楚这个游戏怎么玩，猜出"赢"是什么样子，然后把学到的东西带到后面越来越难的关卡里。

评分用 RHAE——跟人类完成同一任务的操作效率对比，不只是"你赢了没"。

人类进去就解。AI 进去就乱。

当前 LLM 的核心能力是在上下文里执行指令。o1 这类推理模型做的也是延伸的上下文搜索——把训练时见过的模式套到新的组合上，非常擅长。

ARC-AGI-3 把这个假设打掉了。没有可以套的先验。规则是人类设计师发明的，跟训练数据没关系。

想成功，AI 需要的更接近：

这不是 Transformer 做的事。更像一个小孩第一次遇到没见过的棋盘游戏时干的事。

Chollet 说了很多年，scaling 在分布外泛化这类任务上会撞墙。ARC-AGI-3 是目前最清楚的实验证据。

接下来有几个方向在被探索：

都没被解决。但 ARC-AGI-3 让"解决了"这件事变得具体。

ARC Prize 2026 给第一个开源达到人类水平的方案开了 $70 万美元的奖：arcprize.org/competitions/2026

在做 ML Systems 的背景下想了想这件事。我们现在优化的大多数东西——attention kernel、KV cache、量化——都默认模型架构基本是对的，剩下的就是让它跑得更快或更便宜。

ARC-AGI-3 暗示：对这类问题，架构本身可能就是错误的抽象。这是不同性质的问题，时间尺度也更长。

值得盯着。