16 个 AI 联手写了个 C 编译器:Claude Opus 4.6 发布
Anthropic 发布 Claude Opus 4.6,带来百万 token 上下文、编码能力领先与 Agent Teams 多代理协作;案例展示 16 个 Claude 并行两万美元写出可编译 Linux 内核的 C 编译器,预示 AI 团队协作开发新阶段。
今天是 AI 编码 agent 的"超级碗"。
Anthropic 和 OpenAI 同日发布了各自的旗舰编码模型:Claude Opus 4.6 和 GPT-5.3-Codex。两家公司几乎是掐着秒表在竞争。
但真正让我震惊的不是发布本身,而是 Anthropic 工程博客同步放出的一个案例:他们用 16 个 Claude 实例,花了两万美元 API 费用,从零写出了一个能编译 Linux 内核的 C 编译器。
10 万行 Rust 代码。没有人类程序员动手写一行。
这不是科幻小说。这是今天的现实。
一、三大核心升级
1.1 100 万 token 上下文
Opus 4.6 最抓眼球的数字:100 万 token 上下文窗口(beta)。
这是什么概念?
- 大约等于 10 本《三体》全集
- 或者一个中型项目的完整代码库
- 或者过去三个月的所有对话记录
更重要的是,这不是"能装"而已,而是"能用"。
在 MRCR v2 测试中——一个专门测量模型能否从海量文本中找到"埋藏"信息的基准——Opus 4.6 在 8-needle 1M 变体上得分 76%。作为对比,Sonnet 4.5 只有 18.5%。
这是质的飞跃。它意味着你可以把整个代码库扔给 Claude,让它真正理解项目全貌,而不是只看到片段。
以前做大型代码库分析时,我们得精心挑选哪些文件放进上下文。现在可以更粗暴:全放进去,让模型自己判断什么重要。
1.2 编码能力全面提升
Opus 4.6 在多个编码基准上刷新了记录:
- Terminal-Bench 2.0:第一名。这是目前最严格的 agentic 编码评估
- GDPval-AA:比 GPT-5.2 高 144 Elo,比自家 Opus 4.5 高 190 Elo
- BrowseComp:在线信息检索能力第一
Anthropic 的工程师们这样描述新模型的特点:
"更专注于任务的困难部分,快速跳过简单部分,对模糊问题有更好的判断力,长时间工作也不会懈怠。"
简单说:它更像一个资深工程师了。知道什么值得花时间,什么可以快速略过。
一个早期测试者的反馈让我印象深刻:
"Claude Opus 4.6 处理一个数百万行代码库的迁移,就像一个高级工程师。它提前规划,边学边调整策略,用了一半的时间完成。"
1.3 Agent Teams:多 agent 协作
这是 Opus 4.6 真正的杀手锏。
以前,无论模型多强,它都是"单打独斗"。一个 Claude 实例处理一个任务。遇到复杂项目,人类得拆分任务、协调上下文、手动整合结果。
现在有了 Agent Teams。
核心概念很简单:多个 Claude Code session 可以并行工作,共享代码库,互相沟通。
这和之前的 Subagents 有什么区别?
| 特性 | Subagents | Agent Teams |
|---|---|---|
| 上下文 | 共享父 agent 上下文 | 各自独立 |
| 通信 | 通过父 agent 中转 | 直接互相通信 |
| 协调 | 由父 agent 统一调度 | 自主协调 |
Agent Teams 更像真正的团队协作:队长分配任务,队员独立工作,遇到问题直接沟通,不用所有事都汇报给"领导"。
适用场景包括:
- 大型项目的并行开发
- 多假设并行验证
- 代码审查 + 开发同时进行
- 专业分工(一个负责功能,一个负责测试,一个负责文档)
二、震撼案例:16 个 Claude 写 C 编译器
说再多功能,不如看一个真实案例。
Anthropic 的研究员 Nicholas Carlini 写了一篇工程博客,详细记录了他如何用 Agent Teams 从零构建一个 C 编译器。
项目目标
- 从头写一个 C 编译器
- 用 Rust 实现,不依赖任何外部库
- 目标:能编译 Linux 内核
- 支持 x86、ARM、RISC-V 三种架构
这不是玩具项目。GCC、Clang 都是几十年、几百万行代码的庞然大物。
执行规模
- 16 个 Claude 实例并行工作
- 近 2000 个 Claude Code session
- 20 亿输入 token,1.4 亿输出 token
- 总成本:约 2 万美元
- 时间跨度:两周
最终产出
- 10 万行 Rust 代码
- 可以编译 Linux 6.9 内核(x86、ARM、RISC-V)
- 能编译 QEMU、FFmpeg、SQLite、PostgreSQL、Redis
- GCC torture test suite 通过率 99%
- 能编译运行 Doom
关键技术经验
Carlini 分享了几个核心洞见:
1. 测试必须近乎完美
Claude 会自主解决你给它的任何问题。所以问题定义必须精确。如果测试有 bug,Claude 会"解决"那个 bug——而不是真正的问题。
2. 以 agent 的视角设计环境
人类程序员能看时间、能记住之前做过什么。Claude 不行。
- 上下文污染:测试输出不能打印几千行无用信息
- 时间盲:需要显式告诉 Claude 时间流逝了多少
- 状态丢失:每个新 session 都是白纸一张,需要 README 和进度文件
3. 让并行变得容易
当有很多独立的失败测试时,并行很简单:每个 agent 挑一个不同的测试。
但编译 Linux 内核是一个整体任务。16 个 agent 会撞车——都去修同一个 bug。
解决方案:用 GCC 作为"神谕",随机分配文件。如果用 Claude 的编译器编译部分文件出错,就缩小范围。这让每个 agent 能并行修不同的 bug。
4. 角色分工
不是所有 agent 都做同一件事。Carlini 分配了专门的角色:
- 一个负责合并重复代码
- 一个负责优化编译器性能
- 一个负责输出代码效率
- 一个从 Rust 开发者角度审查设计
- 一个维护文档
诚实的局限
Carlini 没有吹嘘完美。他列出了明确的局限:
- 没有自己的 16 位 x86 编译器(这部分仍用 GCC)
- 汇编器和链接器还有 bug
- 生成的代码效率不如 GCC(即使全优化也不如 GCC 不优化)
- Rust 代码质量"还可以",但不是专家级
最触动我的是他的结尾:
"这个实验让我兴奋,但也让我感到不安。我没想到 2026 年初就能做到这个。"
三、行业影响
Anthropic vs OpenAI
今天的双发布不是巧合。
OpenAI 的 GPT-5.3-Codex 也相当强悍:它是第一个"用自己训练自己"的模型——早期版本被用来 debug 后期版本的训练。
但从公开评测看,Opus 4.6 在多数编码基准上领先。特别是 Agent Teams 这个功能,目前 OpenAI 还没有对应的产品。
编码 agent 的竞争正在从"模型能力"转向"协作架构"。单个模型有多强不再是唯一指标,如何让多个模型协作才是新战场。
对开发者意味着什么
项目规模上限提升。以前复杂到一定程度,AI 就力不从心了。现在这个天花板被大幅抬高。
自主开发成为可能。不是辅助编程,是"我告诉你目标,你自己搞定"。当然,前提是你能定义清楚什么叫"搞定"。
质量保证更重要。当代码不是人写的,你更难靠直觉判断质量。测试、审查、验证变得更关键。
安全与伦理
Opus 4.6 的安全投入值得一提:
- 发布前发现了 500 个开源代码零日漏洞
- 新增 6 个网络安全检测探针
- 整体安全评分与 Opus 4.5 持平(该系列最安全的模型)
但 Carlini 的担忧也是真实的:
"当程序员部署自己从未亲自验证过的软件时,这是一个真正的问题。"
自主代码生成是双刃剑。能力越强,滥用风险也越大。
四、结语
Claude Opus 4.6 带来了三个核心升级:
- 100 万 token 上下文窗口
- 编码能力全面领先
- Agent Teams 多 agent 协作
但真正的意义不在于某个数字或某项评测。而在于它展示的可能性:
AI 编程正在从"人机配对"走向"AI 团队协作"。
16 个 Claude 花两万美元写出了一个能编译 Linux 内核的编译器。这在一年前还是科幻。
下一步是什么?
也许是 AI 自己设计架构、自己分配任务、自己审查代码、自己部署上线。人类只需要说一句:"我想要一个这样的产品。"
这让人兴奋。也让人不安。
正如 Carlini 所说:"我们正在进入一个新世界。"
参考来源
- Claude Opus 4.6 官方公告
- Building a C compiler with a team of parallel Claudes
- Agent Teams 文档
- Claude Opus 4.6 System Card