✍️ 公众号文章

经/管/金融人

学生

AI 教师

16 个 AI 联手写了个 C 编译器：Claude Opus 4.6 发布

Anthropic 发布 Claude Opus 4.6，带来百万 token 上下文、编码能力领先与 Agent Teams 多代理协作；案例展示 16 个 Claude 并行两万美元写出可编译 Linux 内核的 C 编译器，预示 AI 团队协作开发新阶段。

李学恒2026年2月19日5 分钟阅读#claude-opus#agent-teams#multi-agent#ai-coding#claude-code

目录展开 ↓

一、三大核心升级
1.1 100 万 token 上下文
1.2 编码能力全面提升
1.3 Agent Teams：多 agent 协作
二、震撼案例：16 个 Claude 写 C 编译器
项目目标
执行规模
最终产出
关键技术经验
诚实的局限
三、行业影响
Anthropic vs OpenAI
对开发者意味着什么
安全与伦理
四、结语

今天是 AI 编码 agent 的"超级碗"。

Anthropic 和 OpenAI 同日发布了各自的旗舰编码模型：Claude Opus 4.6 和 GPT-5.3-Codex。两家公司几乎是掐着秒表在竞争。

但真正让我震惊的不是发布本身，而是 Anthropic 工程博客同步放出的一个案例：他们用 16 个 Claude 实例，花了两万美元 API 费用，从零写出了一个能编译 Linux 内核的 C 编译器。

10 万行 Rust 代码。没有人类程序员动手写一行。

这不是科幻小说。这是今天的现实。

一、三大核心升级

1.1 100 万 token 上下文

Opus 4.6 最抓眼球的数字：100 万 token 上下文窗口（beta）。

这是什么概念？

大约等于 10 本《三体》全集
或者一个中型项目的完整代码库
或者过去三个月的所有对话记录

更重要的是，这不是"能装"而已，而是"能用"。

在 MRCR v2 测试中——一个专门测量模型能否从海量文本中找到"埋藏"信息的基准——Opus 4.6 在 8-needle 1M 变体上得分 76%。作为对比，Sonnet 4.5 只有 18.5%。

这是质的飞跃。它意味着你可以把整个代码库扔给 Claude，让它真正理解项目全貌，而不是只看到片段。

以前做大型代码库分析时，我们得精心挑选哪些文件放进上下文。现在可以更粗暴：全放进去，让模型自己判断什么重要。

1.2 编码能力全面提升

Opus 4.6 在多个编码基准上刷新了记录：

Terminal-Bench 2.0：第一名。这是目前最严格的 agentic 编码评估
GDPval-AA：比 GPT-5.2 高 144 Elo，比自家 Opus 4.5 高 190 Elo
BrowseComp：在线信息检索能力第一

Anthropic 的工程师们这样描述新模型的特点：

"更专注于任务的困难部分，快速跳过简单部分，对模糊问题有更好的判断力，长时间工作也不会懈怠。"

简单说：它更像一个资深工程师了。知道什么值得花时间，什么可以快速略过。

一个早期测试者的反馈让我印象深刻：

"Claude Opus 4.6 处理一个数百万行代码库的迁移，就像一个高级工程师。它提前规划，边学边调整策略，用了一半的时间完成。"

1.3 Agent Teams：多 agent 协作

这是 Opus 4.6 真正的杀手锏。

以前，无论模型多强，它都是"单打独斗"。一个 Claude 实例处理一个任务。遇到复杂项目，人类得拆分任务、协调上下文、手动整合结果。

现在有了 Agent Teams。

核心概念很简单：多个 Claude Code session 可以并行工作，共享代码库，互相沟通。

这和之前的 Subagents 有什么区别？

特性	Subagents	Agent Teams
上下文	共享父 agent 上下文	各自独立
通信	通过父 agent 中转	直接互相通信
协调	由父 agent 统一调度	自主协调

Agent Teams 更像真正的团队协作：队长分配任务，队员独立工作，遇到问题直接沟通，不用所有事都汇报给"领导"。

适用场景包括：

大型项目的并行开发
多假设并行验证
代码审查 + 开发同时进行
专业分工（一个负责功能，一个负责测试，一个负责文档）

二、震撼案例：16 个 Claude 写 C 编译器

说再多功能，不如看一个真实案例。

Anthropic 的研究员 Nicholas Carlini 写了一篇工程博客，详细记录了他如何用 Agent Teams 从零构建一个 C 编译器。

项目目标

从头写一个 C 编译器
用 Rust 实现，不依赖任何外部库
目标：能编译 Linux 内核
支持 x86、ARM、RISC-V 三种架构

这不是玩具项目。GCC、Clang 都是几十年、几百万行代码的庞然大物。

执行规模

16 个 Claude 实例并行工作
近 2000 个 Claude Code session
20 亿输入 token，1.4 亿输出 token
总成本：约 2 万美元
时间跨度：两周

最终产出

10 万行 Rust 代码
可以编译 Linux 6.9 内核（x86、ARM、RISC-V）
能编译 QEMU、FFmpeg、SQLite、PostgreSQL、Redis
GCC torture test suite 通过率 99%
能编译运行 Doom

关键技术经验

Carlini 分享了几个核心洞见：

1. 测试必须近乎完美

Claude 会自主解决你给它的任何问题。所以问题定义必须精确。如果测试有 bug，Claude 会"解决"那个 bug——而不是真正的问题。

2. 以 agent 的视角设计环境

人类程序员能看时间、能记住之前做过什么。Claude 不行。

上下文污染：测试输出不能打印几千行无用信息
时间盲：需要显式告诉 Claude 时间流逝了多少
状态丢失：每个新 session 都是白纸一张，需要 README 和进度文件

3. 让并行变得容易

当有很多独立的失败测试时，并行很简单：每个 agent 挑一个不同的测试。

但编译 Linux 内核是一个整体任务。16 个 agent 会撞车——都去修同一个 bug。

解决方案：用 GCC 作为"神谕"，随机分配文件。如果用 Claude 的编译器编译部分文件出错，就缩小范围。这让每个 agent 能并行修不同的 bug。

4. 角色分工

不是所有 agent 都做同一件事。Carlini 分配了专门的角色：

一个负责合并重复代码
一个负责优化编译器性能
一个负责输出代码效率
一个从 Rust 开发者角度审查设计
一个维护文档

诚实的局限

Carlini 没有吹嘘完美。他列出了明确的局限：

没有自己的 16 位 x86 编译器（这部分仍用 GCC）
汇编器和链接器还有 bug
生成的代码效率不如 GCC（即使全优化也不如 GCC 不优化）
Rust 代码质量"还可以"，但不是专家级

最触动我的是他的结尾：

"这个实验让我兴奋，但也让我感到不安。我没想到 2026 年初就能做到这个。"

三、行业影响

Anthropic vs OpenAI

今天的双发布不是巧合。

OpenAI 的 GPT-5.3-Codex 也相当强悍：它是第一个"用自己训练自己"的模型——早期版本被用来 debug 后期版本的训练。

但从公开评测看，Opus 4.6 在多数编码基准上领先。特别是 Agent Teams 这个功能，目前 OpenAI 还没有对应的产品。

编码 agent 的竞争正在从"模型能力"转向"协作架构"。单个模型有多强不再是唯一指标，如何让多个模型协作才是新战场。

对开发者意味着什么

项目规模上限提升。以前复杂到一定程度，AI 就力不从心了。现在这个天花板被大幅抬高。

自主开发成为可能。不是辅助编程，是"我告诉你目标，你自己搞定"。当然，前提是你能定义清楚什么叫"搞定"。

质量保证更重要。当代码不是人写的，你更难靠直觉判断质量。测试、审查、验证变得更关键。

安全与伦理

Opus 4.6 的安全投入值得一提：

发布前发现了 500 个开源代码零日漏洞
新增 6 个网络安全检测探针
整体安全评分与 Opus 4.5 持平（该系列最安全的模型）

但 Carlini 的担忧也是真实的：

"当程序员部署自己从未亲自验证过的软件时，这是一个真正的问题。"

自主代码生成是双刃剑。能力越强，滥用风险也越大。

四、结语

Claude Opus 4.6 带来了三个核心升级：

100 万 token 上下文窗口
编码能力全面领先
Agent Teams 多 agent 协作

但真正的意义不在于某个数字或某项评测。而在于它展示的可能性：

AI 编程正在从"人机配对"走向"AI 团队协作"。

16 个 Claude 花两万美元写出了一个能编译 Linux 内核的编译器。这在一年前还是科幻。

下一步是什么？

也许是 AI 自己设计架构、自己分配任务、自己审查代码、自己部署上线。人类只需要说一句："我想要一个这样的产品。"

这让人兴奋。也让人不安。

正如 Carlini 所说："我们正在进入一个新世界。"

参考来源