✍️ 公众号文章

经/管/金融人

研究者

DeepSeek 现象：中国 AI 的另一条路走通了吗？

DeepSeek 以 560 万美元训练出比肩 GPT-4 的开源模型，引发英伟达股价暴跌。其 MoE 架构、FP8 低精度训练与强化学习路径，证明效率驱动可挑战硅谷资源堆砌范式，为中国 AI 探出另一条路。

李学恒2026年2月1日7 分钟阅读#deepseek#open-source-llm#moe#scaling-laws#china-ai

目录展开 ↓

一、DeepSeek 是谁？
二、560 万美元的秘密
三、约束催生创新
四、中国 AI 的另一条路
五、冷静的提醒
六、未来走向
参考来源

560 万美元训练出比肩 GPT-4 的大模型，DeepSeek 震惊硅谷。这家脱胎于量化基金的中国公司，用效率驱动的技术路线，挑战了 AI 需要巨额资本的正统叙事。中国 AI 的另一条路，究竟走通了吗？

2025 年 1 月，一家中国 AI 公司用 560 万美元的算力成本，训练出了比肩 GPT-4 的大模型。这个数字让硅谷重新审视自己的假设——OpenAI 训练 GPT-4 花了超过 1 亿美元，而这家叫 DeepSeek 的公司，只用了其二十分之一不到。

更让人意外的是，DeepSeek 选择了完全开源。

消息传出，英伟达股价单日暴跌 17%，市值蒸发近 6000 亿美元。华尔街分析师们紧急修改研报，试图解释这个黑天鹅事件。而在中国互联网上，DeepSeek 的 App 一度冲上应用商店榜首，服务器被挤爆到需要限流。

这不是简单的中国公司也能做 AI 的故事。DeepSeek 的出现，正在挑战硅谷过去两年建立的一整套 AI 发展叙事。

一、DeepSeek 是谁？

在成为 AI 明星之前，DeepSeek 的母公司幻方量化，是中国最大的量化对冲基金之一，管理规模超过 600 亿人民币。

量化基金的核心竞争力是算力。早在 AI 大模型爆发之前，幻方就建立了自己的超算中心，拥有超过一万张英伟达 A100 芯片。当 2022 年 ChatGPT 引爆全球，大多数中国公司还在为算力发愁时，幻方已经具备了入场的基础设施。

2023 年，幻方正式成立 DeepSeek，目标很明确：做开源的顶级大模型。创始团队以幻方的 AI 研究部门为核心，汇聚了一批有顶级学术背景和工业经验的年轻研究者，平均年龄不到 30 岁。

这个选择本身就很反常。在中国，做大模型的公司不少，但大多走商业闭源路线，指望靠 API 调用赚钱。而 DeepSeek 从一开始就宣布：模型权重完全开放，任何人可以免费使用和修改。

2024 年 5 月，DeepSeek-V2 发布，首次展示了其技术路线的威力：性能接近 GPT-4，但推理成本只有竞品的几十分之一。

2025 年 1 月，DeepSeek-V3 和 R1 模型相继发布，彻底引爆舆论。R1 模型在数学、编程等推理任务上，已经能够匹敌 OpenAI 最新的 o1 模型——而最终训练阶段的算力成本，只有 560 万美元。需要说明的是，这一数字不包含研发人员薪酬和前期实验开销，但即便如此，效率差距仍然惊人。

二、560 万美元的秘密

560 万美元能做什么？在硅谷，这大概是雇十个高级工程师一年的成本。而 DeepSeek 用这笔钱的算力，训练出了一个能跟 OpenAI 掰手腕的模型。

这不是因为中国劳动力便宜，而是因为 DeepSeek 走了一条完全不同的技术路线。

秘密一：混合专家架构（MoE）

传统大模型像一个全科医生，每次回答问题都要调动全部参数。DeepSeek-V3 采用的 MoE 架构更像一家专科医院：模型内部有 671 个专家模块，但每次推理只激活其中 37 个。

打个比方：你去医院看感冒，不需要心脏科、骨科、眼科的医生全部到场。MoE 的设计就是用谁叫谁，大幅降低了计算量。

这种架构并非 DeepSeek 首创，但他们把它做到了极致。671B 的总参数量，实际激活只有 37B，相当于用大模型的能力、小模型的成本。

秘密二：低精度训练

训练大模型需要做海量的数学运算。传统方法用 32 位或 16 位精度计算，就像用精密天平称重。DeepSeek 直接采用 8 位精度（FP8），像用普通秤一样够用就行。

精度降低，计算速度翻倍，所需的芯片数量也随之减半。这在芯片受限的情况下尤为关键——当美国禁止向中国出口最先进的 H100 芯片，DeepSeek 用老一代的 A100 和 H800，照样完成了训练。

秘密三：强化学习的突破

DeepSeek-R1 模型最让业界震惊的，是它展现出的推理能力。

传统大模型像一个博览群书的学者，擅长记忆和复述，但不擅长逻辑推理。R1 模型通过大规模强化学习，学会了思考——它会在回答问题时，先自己跟自己辩论，一步步推导出答案。

更有趣的是，DeepSeek 公开表示：R1 的训练几乎没有使用人工标注数据，纯粹靠模型自我博弈产生。这意味着他们找到了一条更便宜、更可扩展的训练路径。

MoE 架构示意图

三、约束催生创新

DeepSeek 的技术突破，有个常被忽视的背景：芯片封锁。

2022 年 10 月，美国商务部发布出口管制新规，禁止向中国出售高端 AI 芯片。英伟达专门为中国市场阉割的 A800、H800 芯片，也在 2023 年 10 月被进一步封禁。

这本应是中国 AI 发展的致命打击。大模型训练是典型的暴力出奇迹——OpenAI、Google、Meta 的路线，都是堆更多芯片、用更多电力、烧更多钱。没有最先进的芯片，按硅谷的玩法，中国 AI 似乎毫无胜算。

但 DeepSeek 证明了另一种可能：当资源受限时，你被迫变得更聪明。

经济学中有个经典现象叫资源诅咒——坐拥丰富资源的国家，往往经济发展反而落后。原因是资源太充裕，就没有动力去创新。反过来，日本、韩国这样资源匮乏的国家，反而发展出了全球领先的制造业。

DeepSeek 的故事，是这个逻辑的 AI 版本。

当硅谷巨头们用 H100 堆砌算力护城河时，DeepSeek 被迫在算法和工程上精雕细琢。MoE 架构、FP8 训练、高效的分布式系统——这些技术选择，都是螺蛳壳里做道场的产物。

讽刺的是，芯片禁令本意是遏制中国 AI，结果却倒逼出了一条更高效的技术路线。如果 DeepSeek 的路径被证明是可复制的，那芯片禁令的战略价值就要被重新评估了。

如果 DeepSeek 的成功不是偶然，它意味着什么？要回答这个问题，需要先理解它挑战的是什么。

四、中国 AI 的另一条路

过去两年，硅谷建立了一套 AI 发展的正统叙事：

大模型需要巨额资本，百亿美元起步
大模型需要顶级芯片，英伟达是不可替代的瓶颈
大模型是赢家通吃的游戏，只有少数巨头能玩

这套叙事的逻辑是规模定律（Scaling Laws）：模型越大、数据越多、训练越久，效果就越好。沿着这条路走，OpenAI、Google、Anthropic 获得了天量融资，英伟达股价飙升十倍，全球掀起算力军备竞赛。

DeepSeek 的出现，打破了这个叙事。

560 万美元的训练成本证明：大模型不一定需要那么贵。开源免费的模型证明：技术护城河没有想象中那么深。一家来自中国的量化基金证明：顶级 AI 能力，并非硅谷的专利。

这不是说硅谷的路线是错的。规模定律依然有效，更大的模型、更多的数据，确实能带来更好的效果。但 DeepSeek 证明了：通往顶级 AI 的路，不止一条。

两条路线的本质差异是什么？

硅谷范式：资源驱动型创新

思路是有多大锅做多大饭。拥有最多的资本、最好的芯片、最顶尖的人才，就能做出最好的模型。这条路需要持续的巨额投入，但只要资源到位，进展是可预期的。

DeepSeek 范式：效率驱动型创新

思路是把每一分钱花在刀刃上。在有限资源下，通过算法创新和工程优化，逼近甚至超越资源堆砌的效果。这条路风险更高，但一旦成功，可以用十分之一的成本实现同等能力。

历史上，后发国家的追赶，往往都是第二条路。

日本汽车工业在 1970 年代崛起，不是因为日本比美国资源更多，而是因为丰田发明了精益生产，用更高的效率击败了底特律的规模优势。韩国半导体在 1990 年代超越日本，靠的也不是烧更多钱，而是更快的技术迭代和更激进的投资时机。

DeepSeek 走的是同一条路：用效率弥补资源差距。

两种 AI 发展范式对比

五、冷静的提醒

在欢呼 DeepSeek 的同时，需要保持几分清醒。

第一，一家公司的成功不等于行业的胜利。

DeepSeek 的技术积累来自幻方多年的超算投入，这不是可以轻易复制的。中国 AI 行业整体，仍然面临芯片断供、人才流失、数据合规等多重挑战。把 DeepSeek 的成功简单推广为中国 AI 已经追平美国，是危险的误判。

第二，开源模式的可持续性存疑。

DeepSeek 至今没有公布明确的商业化计划。幻方量化作为母公司可以持续输血，但这种富二代模式能维持多久？如果没有可持续的收入来源，开源生态的长期发展是个问号。

第三，技术竞争的格局远未定型。

OpenAI、Google、Anthropic 并非坐以待毙。DeepSeek 的开源模型，某种意义上也是在帮助竞争对手学习。当硅谷巨头吸收了这些技术思路后，下一轮竞争会怎样演化，仍是未知数。

第四，芯片封锁的升级风险。

DeepSeek 的成功可能刺激美国加码技术封锁。如果连 A100 级别的芯片都被禁止，或者软件生态（如 CUDA）被进一步收紧，中国 AI 的处境会更加艰难。

第五，开源策略的战略双刃剑。

DeepSeek 的技术细节向全球公开，这意味着硅谷竞争对手也能从中学习。开源加速了中国 AI 生态的成长，但也可能缩短与竞争对手的技术代差。这是一个值得长期观察的战略权衡。

六、未来走向

DeepSeek 的下一步会是什么？

从目前公开的信息看，他们似乎无意放弃开源路线。DeepSeek 的官网和论文都强调开放，这与公司的技术信仰和人才吸引策略有关。

但纯开源不是长久之计。可能的商业化路径包括：企业级 API 服务、定制化模型部署、技术咨询等。如何在坚持开源的同时实现商业闭环，是 DeepSeek 接下来需要回答的问题。

对中国 AI 产业而言，DeepSeek 的意义可能在于示范效应：

证明高效率路线是可行的。不是每家公司都需要追求万亿参数、百亿投资。找到自己的技术突破点，小团队也能做出顶级成果。

证明开源生态的价值。中国过去的科技发展，习惯于自上而下的举国体制。DeepSeek 的成功表明，开放协作的模式同样有效——甚至更有效。

对于更广泛的 AI 竞争格局，DeepSeek 现象提出了一个根本性的问题：

技术竞争的本质，到底是资源的比拼，还是智慧的较量？

如果答案是前者，那么谁拥有更多芯片、更多资本，谁就会赢。美国的优势难以撼动。

如果答案是后者，那么竞争就会变得更加开放、更加不可预测。后发者永远有机会，因为聪明的做法可以弥补资源的不足。

DeepSeek 目前的答案是：两者皆重要，但效率的权重，比之前想象的要大得多。

一年前，很少有人相信一家中国量化基金能撼动硅谷的 AI 叙事。一年后，DeepSeek 已经成为全球 AI 从业者的必修课。

中国 AI 的另一条路走通了吗？至少，这条路已经被证明存在。接下来的问题是：它能走多远？

本文写作于 2025 年 1 月。DeepSeek 的发展仍在进行中，文中分析基于截至发稿时的公开信息。

参考来源

DeepSeek-V3 Technical Report - DeepSeek 官方技术报告
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs - R1 模型论文
DeepSeek 官方网站
Chinese startup DeepSeek shakes up AI industry with low-cost model - Reuters 报道
Nvidia shares tumble as Chinese AI startup DeepSeek spooks investors - Financial Times 报道
Mixture of Experts Explained - Hugging Face MoE 架构解析

DeepSeek 现象：中国 AI 的另一条路走通了吗？

一、DeepSeek 是谁？

二、560 万美元的秘密

三、约束催生创新

四、中国 AI 的另一条路

五、冷静的提醒

六、未来走向

参考来源

2025 AI 狂飙年鉴：从 DeepSeek 震荡到 Agent 觉醒的 365 天

AI Workbench：投研岗位的真实落地

如何制作第一个Skill

一、DeepSeek 是谁？

二、560 万美元的秘密

三、约束催生创新

四、中国 AI 的另一条路

五、冷静的提醒

六、未来走向

参考来源

相关阅读

2025 AI 狂飙年鉴：从 DeepSeek 震荡到 Agent 觉醒的 365 天

AI Workbench：投研岗位的真实落地

如何制作第一个Skill

相关标签