上周 Chollet 发了 ARC-AGI-3。核心数字就两个:

人类得分 100%。GPT-5.4、Gemini 3.1 Pro 这些最强的模型,得了 0.26%。

不是 26。零点二六。


01 ARC-AGI 这几代干了什么

Chollet 做这件事挺久了:

  • 2019 年,ARC-AGI-1:网格视觉推理。看起来挺简单。GPT-4 出来的时候得分不到 5%。逼出了推理模型(o1、R1 这些)。
  • 2024 年,ARC-AGI-2:更难的抽象推理。同样,逼出了 coding agent 这波。
  • 2026 年,ARC-AGI-3:完全交互式。不一样的东西了。

规律很稳定:每个基准都比实际瓶颈早两年指出来。ARC-AGI-3 在说下一个会卡在哪。


02 它到底测什么

之前的 ARC 是静态的——给你个网格,补全规律。ARC-AGI-3 是回合制交互游戏

几百个手工做的游戏环境,人类游戏设计师设计的。把 AI 扔进去:

  • 没有规则说明
  • 没有目标描述
  • 什么提示都没有

AI 要自己探索,搞清楚这个游戏怎么玩,猜出"赢"是什么样子,然后把学到的东西带到后面越来越难的关卡里。

评分用 RHAE——跟人类完成同一任务的操作效率对比,不只是"你赢了没"。

人类进去就解。AI 进去就乱。


03 为什么当前的 AI 在这挂了

当前 LLM 的核心能力是在上下文里执行指令。o1 这类推理模型做的也是延伸的上下文搜索——把训练时见过的模式套到新的组合上,非常擅长。

ARC-AGI-3 把这个假设打掉了。没有可以套的先验。规则是人类设计师发明的,跟训练数据没关系。

想成功,AI 需要的更接近:

  1. 主动探索:先试试这里按一下会发生什么
  2. 建模:在脑子里构一个"这个世界怎么运转"的模型
  3. 推断目标:没人告诉你赢是什么,要自己猜
  4. 迁移:第 1 关学到的东西,到第 10 关还得用

这不是 Transformer 做的事。更像一个小孩第一次遇到没见过的棋盘游戏时干的事。


04 说明了什么

Chollet 说了很多年,scaling 在分布外泛化这类任务上会撞墙。ARC-AGI-3 是目前最清楚的实验证据。

接下来有几个方向在被探索:

  • 程序合成:不是预测下一个 token,而是生成描述规则的程序
  • 世界模型:学一个紧凑的环境动态模拟
  • 主动推断:把探索作为核心循环而不是附属物

都没被解决。但 ARC-AGI-3 让"解决了"这件事变得具体。

ARC Prize 2026 给第一个开源达到人类水平的方案开了 $70 万美元的奖:arcprize.org/competitions/2026


05 个人想法

在做 ML Systems 的背景下想了想这件事。我们现在优化的大多数东西——attention kernel、KV cache、量化——都默认模型架构基本是对的,剩下的就是让它跑得更快或更便宜。

ARC-AGI-3 暗示:对这类问题,架构本身可能就是错误的抽象。这是不同性质的问题,时间尺度也更长。

值得盯着。