跳到主内容
✍️ 公众号文章
经/管/金融人
研究者

DeepSeek 现象:中国 AI 的另一条路走通了吗?

DeepSeek 以 560 万美元训练出比肩 GPT-4 的开源模型,引发英伟达股价暴跌。其 MoE 架构、FP8 低精度训练与强化学习路径,证明效率驱动可挑战硅谷资源堆砌范式,为中国 AI 探出另一条路。

李学恒7 分钟阅读#deepseek#open-source-llm#moe#scaling-laws#china-ai

560 万美元训练出比肩 GPT-4 的大模型,DeepSeek 震惊硅谷。这家脱胎于量化基金的中国公司,用效率驱动的技术路线,挑战了 AI 需要巨额资本的正统叙事。中国 AI 的另一条路,究竟走通了吗?

封面


2025 年 1 月,一家中国 AI 公司用 560 万美元的算力成本,训练出了比肩 GPT-4 的大模型。这个数字让硅谷重新审视自己的假设——OpenAI 训练 GPT-4 花了超过 1 亿美元,而这家叫 DeepSeek 的公司,只用了其二十分之一不到。

更让人意外的是,DeepSeek 选择了完全开源。

消息传出,英伟达股价单日暴跌 17%,市值蒸发近 6000 亿美元。华尔街分析师们紧急修改研报,试图解释这个黑天鹅事件。而在中国互联网上,DeepSeek 的 App 一度冲上应用商店榜首,服务器被挤爆到需要限流。

这不是简单的中国公司也能做 AI 的故事。DeepSeek 的出现,正在挑战硅谷过去两年建立的一整套 AI 发展叙事

一、DeepSeek 是谁?

在成为 AI 明星之前,DeepSeek 的母公司幻方量化,是中国最大的量化对冲基金之一,管理规模超过 600 亿人民币

量化基金的核心竞争力是算力。早在 AI 大模型爆发之前,幻方就建立了自己的超算中心,拥有超过一万张英伟达 A100 芯片。当 2022 年 ChatGPT 引爆全球,大多数中国公司还在为算力发愁时,幻方已经具备了入场的基础设施。

2023 年,幻方正式成立 DeepSeek,目标很明确:做开源的顶级大模型。创始团队以幻方的 AI 研究部门为核心,汇聚了一批有顶级学术背景和工业经验的年轻研究者,平均年龄不到 30 岁。

这个选择本身就很反常。在中国,做大模型的公司不少,但大多走商业闭源路线,指望靠 API 调用赚钱。而 DeepSeek 从一开始就宣布:模型权重完全开放,任何人可以免费使用和修改

2024 年 5 月,DeepSeek-V2 发布,首次展示了其技术路线的威力:性能接近 GPT-4,但推理成本只有竞品的几十分之一

2025 年 1 月,DeepSeek-V3 和 R1 模型相继发布,彻底引爆舆论。R1 模型在数学、编程等推理任务上,已经能够匹敌 OpenAI 最新的 o1 模型——而最终训练阶段的算力成本,只有 560 万美元。需要说明的是,这一数字不包含研发人员薪酬和前期实验开销,但即便如此,效率差距仍然惊人。

二、560 万美元的秘密

560 万美元能做什么?在硅谷,这大概是雇十个高级工程师一年的成本。而 DeepSeek 用这笔钱的算力,训练出了一个能跟 OpenAI 掰手腕的模型。

这不是因为中国劳动力便宜,而是因为 DeepSeek 走了一条完全不同的技术路线

秘密一:混合专家架构(MoE)

传统大模型像一个全科医生,每次回答问题都要调动全部参数。DeepSeek-V3 采用的 MoE 架构更像一家专科医院:模型内部有 671 个专家模块,但每次推理只激活其中 37 个。

打个比方:你去医院看感冒,不需要心脏科、骨科、眼科的医生全部到场。MoE 的设计就是用谁叫谁,大幅降低了计算量。

这种架构并非 DeepSeek 首创,但他们把它做到了极致。671B 的总参数量,实际激活只有 37B,相当于用大模型的能力、小模型的成本

秘密二:低精度训练

训练大模型需要做海量的数学运算。传统方法用 32 位或 16 位精度计算,就像用精密天平称重。DeepSeek 直接采用 8 位精度(FP8),像用普通秤一样够用就行。

精度降低,计算速度翻倍,所需的芯片数量也随之减半。这在芯片受限的情况下尤为关键——当美国禁止向中国出口最先进的 H100 芯片,DeepSeek 用老一代的 A100 和 H800,照样完成了训练。

秘密三:强化学习的突破

DeepSeek-R1 模型最让业界震惊的,是它展现出的推理能力。

传统大模型像一个博览群书的学者,擅长记忆和复述,但不擅长逻辑推理。R1 模型通过大规模强化学习,学会了思考——它会在回答问题时,先自己跟自己辩论,一步步推导出答案。

更有趣的是,DeepSeek 公开表示:R1 的训练几乎没有使用人工标注数据,纯粹靠模型自我博弈产生。这意味着他们找到了一条更便宜、更可扩展的训练路径。

MoE 架构示意图

三、约束催生创新

DeepSeek 的技术突破,有个常被忽视的背景:芯片封锁。

2022 年 10 月,美国商务部发布出口管制新规,禁止向中国出售高端 AI 芯片。英伟达专门为中国市场阉割的 A800、H800 芯片,也在 2023 年 10 月被进一步封禁。

这本应是中国 AI 发展的致命打击。大模型训练是典型的暴力出奇迹——OpenAI、Google、Meta 的路线,都是堆更多芯片、用更多电力、烧更多钱。没有最先进的芯片,按硅谷的玩法,中国 AI 似乎毫无胜算。

但 DeepSeek 证明了另一种可能:当资源受限时,你被迫变得更聪明

经济学中有个经典现象叫资源诅咒——坐拥丰富资源的国家,往往经济发展反而落后。原因是资源太充裕,就没有动力去创新。反过来,日本、韩国这样资源匮乏的国家,反而发展出了全球领先的制造业。

DeepSeek 的故事,是这个逻辑的 AI 版本。

当硅谷巨头们用 H100 堆砌算力护城河时,DeepSeek 被迫在算法和工程上精雕细琢。MoE 架构、FP8 训练、高效的分布式系统——这些技术选择,都是螺蛳壳里做道场的产物。

讽刺的是,芯片禁令本意是遏制中国 AI,结果却倒逼出了一条更高效的技术路线。如果 DeepSeek 的路径被证明是可复制的,那芯片禁令的战略价值就要被重新评估了。

如果 DeepSeek 的成功不是偶然,它意味着什么?要回答这个问题,需要先理解它挑战的是什么。

四、中国 AI 的另一条路

过去两年,硅谷建立了一套 AI 发展的正统叙事:

  • 大模型需要巨额资本,百亿美元起步
  • 大模型需要顶级芯片,英伟达是不可替代的瓶颈
  • 大模型是赢家通吃的游戏,只有少数巨头能玩

这套叙事的逻辑是规模定律(Scaling Laws):模型越大、数据越多、训练越久,效果就越好。沿着这条路走,OpenAI、Google、Anthropic 获得了天量融资,英伟达股价飙升十倍,全球掀起算力军备竞赛。

DeepSeek 的出现,打破了这个叙事。

560 万美元的训练成本证明:大模型不一定需要那么贵。开源免费的模型证明:技术护城河没有想象中那么深。一家来自中国的量化基金证明:顶级 AI 能力,并非硅谷的专利

这不是说硅谷的路线是错的。规模定律依然有效,更大的模型、更多的数据,确实能带来更好的效果。但 DeepSeek 证明了:通往顶级 AI 的路,不止一条

两条路线的本质差异是什么?

硅谷范式:资源驱动型创新

思路是有多大锅做多大饭。拥有最多的资本、最好的芯片、最顶尖的人才,就能做出最好的模型。这条路需要持续的巨额投入,但只要资源到位,进展是可预期的。

DeepSeek 范式:效率驱动型创新

思路是把每一分钱花在刀刃上。在有限资源下,通过算法创新和工程优化,逼近甚至超越资源堆砌的效果。这条路风险更高,但一旦成功,可以用十分之一的成本实现同等能力

历史上,后发国家的追赶,往往都是第二条路。

日本汽车工业在 1970 年代崛起,不是因为日本比美国资源更多,而是因为丰田发明了精益生产,用更高的效率击败了底特律的规模优势。韩国半导体在 1990 年代超越日本,靠的也不是烧更多钱,而是更快的技术迭代和更激进的投资时机。

DeepSeek 走的是同一条路:用效率弥补资源差距

两种 AI 发展范式对比

五、冷静的提醒

在欢呼 DeepSeek 的同时,需要保持几分清醒。

第一,一家公司的成功不等于行业的胜利。

DeepSeek 的技术积累来自幻方多年的超算投入,这不是可以轻易复制的。中国 AI 行业整体,仍然面临芯片断供、人才流失、数据合规等多重挑战。把 DeepSeek 的成功简单推广为中国 AI 已经追平美国,是危险的误判

第二,开源模式的可持续性存疑。

DeepSeek 至今没有公布明确的商业化计划。幻方量化作为母公司可以持续输血,但这种富二代模式能维持多久?如果没有可持续的收入来源,开源生态的长期发展是个问号。

第三,技术竞争的格局远未定型。

OpenAI、Google、Anthropic 并非坐以待毙。DeepSeek 的开源模型,某种意义上也是在帮助竞争对手学习。当硅谷巨头吸收了这些技术思路后,下一轮竞争会怎样演化,仍是未知数。

第四,芯片封锁的升级风险。

DeepSeek 的成功可能刺激美国加码技术封锁。如果连 A100 级别的芯片都被禁止,或者软件生态(如 CUDA)被进一步收紧,中国 AI 的处境会更加艰难。

第五,开源策略的战略双刃剑。

DeepSeek 的技术细节向全球公开,这意味着硅谷竞争对手也能从中学习。开源加速了中国 AI 生态的成长,但也可能缩短与竞争对手的技术代差。这是一个值得长期观察的战略权衡。

六、未来走向

DeepSeek 的下一步会是什么?

从目前公开的信息看,他们似乎无意放弃开源路线。DeepSeek 的官网和论文都强调开放,这与公司的技术信仰和人才吸引策略有关。

但纯开源不是长久之计。可能的商业化路径包括:企业级 API 服务、定制化模型部署、技术咨询等。如何在坚持开源的同时实现商业闭环,是 DeepSeek 接下来需要回答的问题。

对中国 AI 产业而言,DeepSeek 的意义可能在于示范效应:

证明高效率路线是可行的。不是每家公司都需要追求万亿参数、百亿投资。找到自己的技术突破点,小团队也能做出顶级成果

证明开源生态的价值。中国过去的科技发展,习惯于自上而下的举国体制。DeepSeek 的成功表明,开放协作的模式同样有效——甚至更有效

对于更广泛的 AI 竞争格局,DeepSeek 现象提出了一个根本性的问题:

技术竞争的本质,到底是资源的比拼,还是智慧的较量?

如果答案是前者,那么谁拥有更多芯片、更多资本,谁就会赢。美国的优势难以撼动。

如果答案是后者,那么竞争就会变得更加开放、更加不可预测。后发者永远有机会,因为聪明的做法可以弥补资源的不足

DeepSeek 目前的答案是:两者皆重要,但效率的权重,比之前想象的要大得多

一年前,很少有人相信一家中国量化基金能撼动硅谷的 AI 叙事。一年后,DeepSeek 已经成为全球 AI 从业者的必修课。

中国 AI 的另一条路走通了吗?至少,这条路已经被证明存在。接下来的问题是:它能走多远?


本文写作于 2025 年 1 月。DeepSeek 的发展仍在进行中,文中分析基于截至发稿时的公开信息。


参考来源

related