ARC-AGI-3:为什么最强的模型只得了 0.26 分
上周 Chollet 发了 ARC-AGI-3。核心数字就两个:
人类得分 100%。GPT-5.4、Gemini 3.1 Pro 这些最强的模型,得了 0.26%。
不是 26。零点二六。
01 ARC-AGI 这几代干了什么
Chollet 做这件事挺久了:
- 2019 年,ARC-AGI-1:网格视觉推理。看起来挺简单。GPT-4 出来的时候得分不到 5%。逼出了推理模型(o1、R1 这些)。
- 2024 年,ARC-AGI-2:更难的抽象推理。同样,逼出了 coding agent 这波。
- 2026 年,ARC-AGI-3:完全交互式。不一样的东西了。
规律很稳定:每个基准都比实际瓶颈早两年指出来。ARC-AGI-3 在说下一个会卡在哪。
02 它到底测什么
之前的 ARC 是静态的——给你个网格,补全规律。ARC-AGI-3 是回合制交互游戏。
几百个手工做的游戏环境,人类游戏设计师设计的。把 AI 扔进去:
- 没有规则说明
- 没有目标描述
- 什么提示都没有
AI 要自己探索,搞清楚这个游戏怎么玩,猜出"赢"是什么样子,然后把学到的东西带到后面越来越难的关卡里。
评分用 RHAE——跟人类完成同一任务的操作效率对比,不只是"你赢了没"。
人类进去就解。AI 进去就乱。
03 为什么当前的 AI 在这挂了
当前 LLM 的核心能力是在上下文里执行指令。o1 这类推理模型做的也是延伸的上下文搜索——把训练时见过的模式套到新的组合上,非常擅长。
ARC-AGI-3 把这个假设打掉了。没有可以套的先验。规则是人类设计师发明的,跟训练数据没关系。
想成功,AI 需要的更接近:
- 主动探索:先试试这里按一下会发生什么
- 建模:在脑子里构一个"这个世界怎么运转"的模型
- 推断目标:没人告诉你赢是什么,要自己猜
- 迁移:第 1 关学到的东西,到第 10 关还得用
这不是 Transformer 做的事。更像一个小孩第一次遇到没见过的棋盘游戏时干的事。
04 说明了什么
Chollet 说了很多年,scaling 在分布外泛化这类任务上会撞墙。ARC-AGI-3 是目前最清楚的实验证据。
接下来有几个方向在被探索:
- 程序合成:不是预测下一个 token,而是生成描述规则的程序
- 世界模型:学一个紧凑的环境动态模拟
- 主动推断:把探索作为核心循环而不是附属物
都没被解决。但 ARC-AGI-3 让"解决了"这件事变得具体。
ARC Prize 2026 给第一个开源达到人类水平的方案开了 $70 万美元的奖:arcprize.org/competitions/2026
05 个人想法
在做 ML Systems 的背景下想了想这件事。我们现在优化的大多数东西——attention kernel、KV cache、量化——都默认模型架构基本是对的,剩下的就是让它跑得更快或更便宜。
ARC-AGI-3 暗示:对这类问题,架构本身可能就是错误的抽象。这是不同性质的问题,时间尺度也更长。
值得盯着。