跳到主内容
✍️ 公众号文章
经/管/金融人
学生
AI 教师

16 个 AI 联手写了个 C 编译器:Claude Opus 4.6 发布

Anthropic 发布 Claude Opus 4.6,带来百万 token 上下文、编码能力领先与 Agent Teams 多代理协作;案例展示 16 个 Claude 并行两万美元写出可编译 Linux 内核的 C 编译器,预示 AI 团队协作开发新阶段。

李学恒5 分钟阅读#claude-opus#agent-teams#multi-agent#ai-coding#claude-code

今天是 AI 编码 agent 的"超级碗"。

Anthropic 和 OpenAI 同日发布了各自的旗舰编码模型:Claude Opus 4.6 和 GPT-5.3-Codex。两家公司几乎是掐着秒表在竞争。

但真正让我震惊的不是发布本身,而是 Anthropic 工程博客同步放出的一个案例:他们用 16 个 Claude 实例,花了两万美元 API 费用,从零写出了一个能编译 Linux 内核的 C 编译器。

10 万行 Rust 代码。没有人类程序员动手写一行。

这不是科幻小说。这是今天的现实。

一、三大核心升级

1.1 100 万 token 上下文

Opus 4.6 最抓眼球的数字:100 万 token 上下文窗口(beta)。

这是什么概念?

  • 大约等于 10 本《三体》全集
  • 或者一个中型项目的完整代码库
  • 或者过去三个月的所有对话记录

更重要的是,这不是"能装"而已,而是"能用"。

在 MRCR v2 测试中——一个专门测量模型能否从海量文本中找到"埋藏"信息的基准——Opus 4.6 在 8-needle 1M 变体上得分 76%。作为对比,Sonnet 4.5 只有 18.5%。

这是质的飞跃。它意味着你可以把整个代码库扔给 Claude,让它真正理解项目全貌,而不是只看到片段。

以前做大型代码库分析时,我们得精心挑选哪些文件放进上下文。现在可以更粗暴:全放进去,让模型自己判断什么重要。

1.2 编码能力全面提升

Opus 4.6 在多个编码基准上刷新了记录:

  • Terminal-Bench 2.0:第一名。这是目前最严格的 agentic 编码评估
  • GDPval-AA:比 GPT-5.2 高 144 Elo,比自家 Opus 4.5 高 190 Elo
  • BrowseComp:在线信息检索能力第一

Anthropic 的工程师们这样描述新模型的特点:

"更专注于任务的困难部分,快速跳过简单部分,对模糊问题有更好的判断力,长时间工作也不会懈怠。"

简单说:它更像一个资深工程师了。知道什么值得花时间,什么可以快速略过。

一个早期测试者的反馈让我印象深刻:

"Claude Opus 4.6 处理一个数百万行代码库的迁移,就像一个高级工程师。它提前规划,边学边调整策略,用了一半的时间完成。"

1.3 Agent Teams:多 agent 协作

这是 Opus 4.6 真正的杀手锏。

以前,无论模型多强,它都是"单打独斗"。一个 Claude 实例处理一个任务。遇到复杂项目,人类得拆分任务、协调上下文、手动整合结果。

现在有了 Agent Teams

核心概念很简单:多个 Claude Code session 可以并行工作,共享代码库,互相沟通。

这和之前的 Subagents 有什么区别?

特性SubagentsAgent Teams
上下文共享父 agent 上下文各自独立
通信通过父 agent 中转直接互相通信
协调由父 agent 统一调度自主协调

Agent Teams 更像真正的团队协作:队长分配任务,队员独立工作,遇到问题直接沟通,不用所有事都汇报给"领导"。

适用场景包括:

  • 大型项目的并行开发
  • 多假设并行验证
  • 代码审查 + 开发同时进行
  • 专业分工(一个负责功能,一个负责测试,一个负责文档)

二、震撼案例:16 个 Claude 写 C 编译器

说再多功能,不如看一个真实案例。

Anthropic 的研究员 Nicholas Carlini 写了一篇工程博客,详细记录了他如何用 Agent Teams 从零构建一个 C 编译器。

项目目标

  • 从头写一个 C 编译器
  • 用 Rust 实现,不依赖任何外部库
  • 目标:能编译 Linux 内核
  • 支持 x86、ARM、RISC-V 三种架构

这不是玩具项目。GCC、Clang 都是几十年、几百万行代码的庞然大物。

执行规模

  • 16 个 Claude 实例并行工作
  • 2000 个 Claude Code session
  • 20 亿输入 token,1.4 亿输出 token
  • 总成本:约 2 万美元
  • 时间跨度:两周

最终产出

  • 10 万行 Rust 代码
  • 可以编译 Linux 6.9 内核(x86、ARM、RISC-V)
  • 能编译 QEMU、FFmpeg、SQLite、PostgreSQL、Redis
  • GCC torture test suite 通过率 99%
  • 能编译运行 Doom

关键技术经验

Carlini 分享了几个核心洞见:

1. 测试必须近乎完美

Claude 会自主解决你给它的任何问题。所以问题定义必须精确。如果测试有 bug,Claude 会"解决"那个 bug——而不是真正的问题。

2. 以 agent 的视角设计环境

人类程序员能看时间、能记住之前做过什么。Claude 不行。

  • 上下文污染:测试输出不能打印几千行无用信息
  • 时间盲:需要显式告诉 Claude 时间流逝了多少
  • 状态丢失:每个新 session 都是白纸一张,需要 README 和进度文件

3. 让并行变得容易

当有很多独立的失败测试时,并行很简单:每个 agent 挑一个不同的测试。

但编译 Linux 内核是一个整体任务。16 个 agent 会撞车——都去修同一个 bug。

解决方案:用 GCC 作为"神谕",随机分配文件。如果用 Claude 的编译器编译部分文件出错,就缩小范围。这让每个 agent 能并行修不同的 bug。

4. 角色分工

不是所有 agent 都做同一件事。Carlini 分配了专门的角色:

  • 一个负责合并重复代码
  • 一个负责优化编译器性能
  • 一个负责输出代码效率
  • 一个从 Rust 开发者角度审查设计
  • 一个维护文档

诚实的局限

Carlini 没有吹嘘完美。他列出了明确的局限:

  • 没有自己的 16 位 x86 编译器(这部分仍用 GCC)
  • 汇编器和链接器还有 bug
  • 生成的代码效率不如 GCC(即使全优化也不如 GCC 不优化)
  • Rust 代码质量"还可以",但不是专家级

最触动我的是他的结尾:

"这个实验让我兴奋,但也让我感到不安。我没想到 2026 年初就能做到这个。"

三、行业影响

Anthropic vs OpenAI

今天的双发布不是巧合。

OpenAI 的 GPT-5.3-Codex 也相当强悍:它是第一个"用自己训练自己"的模型——早期版本被用来 debug 后期版本的训练。

但从公开评测看,Opus 4.6 在多数编码基准上领先。特别是 Agent Teams 这个功能,目前 OpenAI 还没有对应的产品。

编码 agent 的竞争正在从"模型能力"转向"协作架构"。单个模型有多强不再是唯一指标,如何让多个模型协作才是新战场。

对开发者意味着什么

项目规模上限提升。以前复杂到一定程度,AI 就力不从心了。现在这个天花板被大幅抬高。

自主开发成为可能。不是辅助编程,是"我告诉你目标,你自己搞定"。当然,前提是你能定义清楚什么叫"搞定"。

质量保证更重要。当代码不是人写的,你更难靠直觉判断质量。测试、审查、验证变得更关键。

安全与伦理

Opus 4.6 的安全投入值得一提:

  • 发布前发现了 500 个开源代码零日漏洞
  • 新增 6 个网络安全检测探针
  • 整体安全评分与 Opus 4.5 持平(该系列最安全的模型)

但 Carlini 的担忧也是真实的:

"当程序员部署自己从未亲自验证过的软件时,这是一个真正的问题。"

自主代码生成是双刃剑。能力越强,滥用风险也越大。

四、结语

Claude Opus 4.6 带来了三个核心升级:

  1. 100 万 token 上下文窗口
  2. 编码能力全面领先
  3. Agent Teams 多 agent 协作

但真正的意义不在于某个数字或某项评测。而在于它展示的可能性:

AI 编程正在从"人机配对"走向"AI 团队协作"。

16 个 Claude 花两万美元写出了一个能编译 Linux 内核的编译器。这在一年前还是科幻。

下一步是什么?

也许是 AI 自己设计架构、自己分配任务、自己审查代码、自己部署上线。人类只需要说一句:"我想要一个这样的产品。"

这让人兴奋。也让人不安。

正如 Carlini 所说:"我们正在进入一个新世界。"


参考来源

  1. Claude Opus 4.6 官方公告
  2. Building a C compiler with a team of parallel Claudes
  3. Agent Teams 文档
  4. Claude Opus 4.6 System Card
related