Anthropic CEO Dario Amodei 最新对于 DeepSeek 的回应:关于 DeepSeek 与出口管制
https://mp.weixin.qq.com/s/2z7RbPyIPOC9fty2ewT4IQ导读
Dario Amodei是美国著名人工智能企业Anthropic的CEO,曾在OpenAI任职并发表过多篇关于大型语言模型(LLM)“规模化定律”的重要论文。他在AI研究和商业运营两方面都极具影响力,对国际AI竞争格局有着切身洞察。
- • 前沿观察:Dario 既有研究经历又有一线AI公司的管理经验,对国际AI竞争、技术趋势、出口管制等问题拥有前沿洞见。
- • 政策影响:文章提及的“阻止中国获得数百万芯片”在美国形成了相当的共识,也揭示了中美在AI领域的战略分歧。
- • 产业参考:从企业角度看,DeepSeek的做法可以为中国AI公司提供一定的技术和策略参考,而文章中的种种分析能帮助我们理解美国对华科技管制背后的逻辑。
文章要点:
- 1. 并非“颠覆性突破”
- Dario强调DeepSeek的技术进展虽值得重视,但并没有颠覆大型语言模型的经济学本质。它依旧遵循AI研发成本持续快速下降的“规模化曲线”,并非对美国AI公司构成“无法追赶”的威胁。
- 2. 芯片出口管制仍是关键
- Dario强烈支持美国对华芯片的出口管制。他认为,要想阻止中国在AI领域大规模崛起,最重要的是卡住海量顶尖芯片的供应,避免形成“中美双极”而保有“美国单极”地位。
- 3. 警惕大规模应用和扩张
- 随着技术持续升级,各大企业可能投入数十亿美元、数百万颗芯片来训练“超越人类大部分能力”的AI。谁能获得这些资源,谁就会在全球科技竞争中夺得主动权。
这篇文章既是了解美国行业领袖观点、又能窥见美国政府和企业对中国AI发展的关注与应对。如果您对中美AI竞赛、技术演进与国家政策感兴趣,不妨深入阅读原文,看看中美AI企业在未来几年里可能走向何方。
2025 年 1 月
几周前,我提出主张,认为美国应对向中国出口芯片实行更严格的管控。自那以后,中国的 AI 公司 DeepSeek 成功地——至少在某些方面——在更低成本的情况下接近了美国前沿 AI 模型的性能。
在本文中,我并不会重点讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁(尽管我确实相信,很多关于它们威胁美国 AI 领先地位的说法都被过度夸大了)([注1])。我想讨论的是,DeepSeek 的发布是否会削弱对华芯片出口管制政策的合理性。我认为并不会。事实上,我认为它们使出口管制政策比一周前更加具有存在意义和至关重要性 ([注2])。
出口管制有着重要的意义:它可帮助民主国家在 AI 研发方面保持领先地位。需要明确的是,这并不是在回避美国与中国之间的竞争。最终,如果想要在竞争中胜出,美国及其他民主国家的 AI 公司必须在模型性能上胜过中国的公司。但当我们不必让中国获得技术优势时,就不应该把这种优势拱手相让。
AI 发展的三大动力在阐述我的政策观点之前,我想先描述一下 AI 系统中至关重要的三个基本动态(dynamics):
1. 规模化定律(Scaling laws)
AI 有一个属性——我和我的联合创始人曾在我们还在 OpenAI 时首先进行过记录——即在其他条件相同的情况下,通过增大训练规模(scaling up),AI 系统在各种认知任务上的整体表现会平滑而持续地提升。例如,一个价值 100 万美元训练出的模型或许能在重要的编程任务上完成 20%,而一个价值 1000 万美元的模型可能能完成 40%,1 亿美元则能完成 60%,诸如此类。这些差异在实践中往往具有巨大影响——再增加一个数量级的投入,可能就意味着从本科生水平上升到博士生水平——因此公司在这些模型的训练上投入了大量资金。
2. “曲线的平移”(Shifting the curve)
这个领域不断涌现出各种大大小小的新思路,来提升模型的效率或效果:也许是对模型架构的改进(对所有当代模型都在使用的 Transformer 基本架构的某种微调),也可能只是让模型在底层硬件上运行得更高效的方法。新的硬件迭代同样可以产生此效果。通常,这些创新会带来**“曲线的平移”**(shift the curve):如果某项创新能带来 2 倍的“计算乘数”(compute multiplier, CM),那么同样的效果(比如在编程任务上达到 40%)原本需要 1000 万美元,现在也许只需要 500 万美元;或者达到 60% 原本需要 1 亿美元,现在只需要 5000 万美元。
每家前沿 AI 公司都能定期发现许多这样的 CM:经常是小幅提升(~ 1.2 倍),偶尔会出现中等规模(~ 2 倍)或较大规模(~ 10 倍)的改进。由于拥有更智能的系统具有巨大价值,这种“曲线平移”通常会促使公司花更多钱来训练模型:在提升成本效率的同时,所有的收益几乎都被用于构建更智能的模型——唯一的限制是公司的财务资源。有些人会自然地倾向于认为“先是昂贵,然后变得便宜”——就好像 AI 是一个固定质量的单一事物,当它变得便宜了,我们就会用更少的芯片去训练它。但关键在于规模曲线(scaling curve):当它平移时,我们只会更快地在这条曲线上攀升,因为曲线尽头的价值实在太高了。
2020 年,我的团队曾发表过一篇论文,提出就算法进步而言,曲线平移的速度大约是每年 1.68 倍。自那以后这个速度可能显著加快,而且这还没有把硬件和效率方面的提升计算在内。我猜现在的数字大约在每年 4 倍左右。另一个估计可见此处。训练曲线的平移也会带动推理(inference)曲线的平移,因此在保证模型质量不变的前提下,价格的大幅下降已经持续了好几年。比如,Claude 3.5 Sonnet 在发布时间上比原版 GPT-4 晚了约 15 个月,但在几乎所有基准测试中都优于 GPT-4,同时其 API 价格降低了大约 10 倍。
3. 范式的转变(Shifting the paradigm)
偶尔,会发生底层所“规模化”的对象本身发生一点变化,或者训练过程中新增加一种新的规模化维度。从 2020 到 2023 年,主要被规模化的对象是预训练模型:在大量互联网文本上进行预训练,然后在顶部加上极少量的其他训练。到了 2024 年,利用**强化学习(RL)**来训练模型生成思维链(chain-of-thought)这一想法成为了新的规模化焦点。Anthropic、DeepSeek 以及其他许多公司(最引人注目的是 OpenAI 在 9 月发布的 o1-preview 模型)都发现,这种训练能在数学、编程竞赛以及类似这些任务的推理场景上,大幅提升模型性能,并且这些任务都具备可客观测量的指标。
这种新范式包括先训练常规的预训练模型,然后再进行第二阶段的 RL 训练来增强推理能力。需要特别强调的是,因为此类 RL 还比较新,现在还处于规模化曲线的早期:在第二阶段所花的训练投入普遍都很小。哪怕只花 100 万美元而不是 10 万美元,也能获得极大的提升。目前各家公司都在努力迅速将此第二阶段扩大到数亿乃至数十亿美元的投入,但必须意识到,我们正处在一个“临界交叉点”,因为这是一个强大的新范式,而且它还处在规模化曲线的早期,所以能迅速取得大幅进展。
DeepSeek 的模型上述三种动态可以帮助我们理解 DeepSeek 近期的发布。大约一个月前,DeepSeek 发布了一个名为“DeepSeek-V3”的模型,它是一种纯预训练模型([注3]),也就是在上文第 3 点所说的第一阶段。然后就在上周,他们又发布了“R1”,在第二阶段上投入了强化学习。我们无法从外部得知这些模型的全部信息,但以下是我对这两次发布的最佳理解。
DeepSeek-V3实际上才是真正的创新,也是本该在一个月前就引起大家注意的(我们的确在内部对其进行了关注)。作为一个预训练模型,它在一些重要任务上接近了([注4])美国最先进的模型水平,同时训练成本明显更低(不过我们发现,Claude 3.5 Sonnet 在某些其他关键任务上,尤其是真实场景下的编程任务,依然显著领先)。DeepSeek 的团队实现这些的方式主要依靠一些真实而令人印象深刻的创新,多数集中在工程效率方面。他们特别有创意地改进了“Key-Value 缓存”的管理方式,并且让“Moe(mixture of experts)”方法的可推行范围比以往更远。
但是,需要更深入地分析:
DeepSeek 并没有“用 600 万美元([注5])就做到了美国 AI 公司用几十亿美元才做到的事”。我只能代表 Anthropic 说话,但 Claude 3.5 Sonnet 是一个中等规模的模型,训练成本也就几千万美元(我不会提供精确数字)。此外,3.5 Sonnet 并没有使用更大或更昂贵的模型进行任何训练(与某些传言相反)。Sonnet 的训练时间是在 9-12 个月前,而 DeepSeek 的模型是在 2024 年 11 月/12 月间训练的;同时,Sonnet 在许多内部和外部测试中依然明显领先。因此,我认为一个比较公允的表述是:“DeepSeek 在成本上确实比美国一些 7-10 个月前的模型更低,并且性能接近,但远没有达到某些人所称的那种夸张比例”。
如果我们假设历史上成本曲线的下降速度大约是每年 4 倍,那么从 2023 到 2024 这一年里,假设原先 3.5 Sonnet/GPT-4o 的训练成本为 X,那么到了现在,理论上出现一个比它便宜 3-4 倍的模型是合乎常理的。而既然 DeepSeek-V3 的表现比这些美国前沿模型要差一些——假设大约差 2 倍的规模化差距(我认为这已经是对 DeepSeek-V3 相当宽松的估计)——那么就意味着,如果它比这些一年前开发的美国模型在训练成本上低了 8 倍,也完全符合“按趋势发展”的情况。我不会给出精确数值,但从上一条我们也能看出,即使相信 DeepSeek 报出的训练成本,他们也顶多算“符合趋势”,甚至可能还没有达标。比如,这个差距还是比不上初版 GPT-4 和 Claude 3.5 Sonnet 在推理价格上(10 倍)的差距,而 3.5 Sonnet 本身比 GPT-4 更好。
总而言之,DeepSeek-V3 并不是一个具有颠覆性意义的独特突破,也没有从根本上改变大模型的经济学;它只是在现有成本下降曲线的预期范围内。真正特别的是,这一次率先展示此类成本下降成果的公司是一家中国企业。 这是史无前例的,也具有地缘政治上的重要意义。但美国公司很快也会跟进——他们并不会通过抄袭 DeepSeek,而是因为他们本来也同样在实现成本下降的正常趋势。
DeepSeek 和美国 AI 公司目前都拥有比当初训练其“头牌模型”更多的资金和更多的芯片。多余的芯片会用在研发上,来开发模型背后的各种想法,有时也会用于训练更大的模型,这些模型尚未准备好,或需要不止一次尝试才能调试好。根据报道——我们无法确定其真实性——DeepSeek 似乎拥有 5 万块 Hopper系列芯片 ([注6]),我猜这个数量大约在美国主要 AI 公司水平的 2-3 倍之内(例如,比 xAI 的“Colossus”集群少 2-3 倍)([注7])。这 5 万块 Hopper 芯片的花费大约是 10 亿美元量级。
因此,DeepSeek 作为一家公司(而非仅训练某个单体模型)的总投入,并不比美国 AI 实验室低太多。
需要注意的是,我所说的“规模化曲线”分析其实是对现实的简化,因为不同模型在不同方面都各有所长;所谓的规模化数值只是一个粗糙的平均,忽略了很多细节。只能就 Anthropic 的模型而言,Claude 在编程方面表现非常出色,而且有一种精心设计的交互风格(很多人用它来做私人咨询或支持)。在这些以及其他一些任务上,DeepSeek 无法与之相比。这些因素并没有体现在规模化数字里。
DeepSeek-R1 是上周发布的模型,引发了公众关注的热潮(包括英伟达股价下跌约 17%),但就创新或工程角度而言,R1 远不如 V3 那么有意思。它在第二阶段训练中加入了强化学习(即前面第 3 点),在本质上相当于复制 OpenAI 在 o1 上所做的事情(两者似乎规模相当,结果也差不多)([注8])。但是,因为我们正处在规模化曲线的早期,只要从一个强大的预训练模型出发,几家公司都可以做出此类模型。R1 在 V3 的基础上发布,成本可能极低。因此,我们正处于一个“临界交叉点”,暂时地同时出现了好几家能够做出不错的推理模型的公司。然而,随着所有企业在这类模型上进一步加大规模,这种同时性会很快消失。
对华芯片出口管制以上这些都是我对本文主要话题——对华芯片出口管制——的铺垫。综上所述,在我看来现状是这样的:
企业在训练强大的 AI 模型上的支出会不断增加,即便“曲线的平移”让训练某个给定智能程度的模型的成本在持续快速下降。原因只是训练更智能的模型所带来的经济价值极其巨大,以至于任何节约成本的空间都会立即被投入到“让模型更智能”上——我们原本就打算花大价钱,而这些节省下来的钱会被进一步用于构建更强大的模型。这一数字还会继续攀升,直到我们训练出在几乎所有事物上都比几乎所有人更聪明的 AI。
要做出在几乎所有方面都超越几乎所有人类的 AI,需要数百万块芯片,至少数百亿美元的投入,而且很可能会在 2026-2027 年实现。DeepSeek 的发布并未对此造成任何改变,因为他们大体上还在预期的成本下降曲线上,这些都早已被纳入对未来的评估。
这意味着在 2026-2027 年,我们可能面临两种截然不同的世界。在美国,多家企业肯定会拥有所需的数百万芯片(花费数百亿美元)。问题是中国是否也能获得数百万芯片 ([注9])。
- • 如果他们能获得,那么世界会呈现**双极(bipolar)**的格局:美国和中国都拥有能带来极其快速科技进步的强大 AI 模型——我曾将其称为“装满天才的国家级数据中心”。但双极格局未必会长期保持平衡。即便中美 AI 系统相差无几,中国可能会集中更多人才、资本和资源来军事化地应用这些技术。再加上他们庞大的工业基础和军事 - 战略优势,这就有可能帮助中国在全球舞台上取得全面领先地位,不仅仅是在 AI 领域,而是覆盖一切。
- • 如果中国无法获得数百万芯片,那么世界将(至少暂时)呈现**单极(unipolar)**格局——只有美国及其盟友拥有这些模型。这样的单极格局是否会持续下去还不确定,但至少存在一个可能:由于 AI 系统最终可以帮助创造更智能的 AI 系统,哪怕只有一次暂时的领先,也能被转变为长期持续的优势([注 10])。因此,在这个世界里,美国及其盟友有机会在全球舞台上获得并保持长期的主导地位。
如果要阻止中国获得数百万芯片,并最终决定我们是在单极还是双极世界里度过,唯一能做到的就是切实可行且落实到位的出口管制 ([注11])。
DeepSeek 目前的表现并不意味着出口管制失效。正如我前面所说,DeepSeek 拥有的是中等到大型的芯片规模,因此它能开发并训练一个强大的模型,这在情理之中。他们与美国 AI 公司在资源层面上并没有什么本质不同,而出口管制也并不是导致他们“只好去创新”的主要原因;他们只是非常有天赋的工程师,这证明中国也是美国的有力竞争对手。
DeepSeek 也并不意味着中国可以一直通过走私来获得所需芯片,或者管制本身一直存在漏洞。我并不认为出口管制本意是要阻止中国获得几万块芯片。10 亿美元的经济活动确实可以藏匿起来,但想要隐藏 100 亿美元或者哪怕是 10 亿美元就相当困难。一百万块芯片在物理层面上也不容易偷运。据报道,DeepSeek 当前的芯片组合包括 H100、H800 和 H20(来源:SemiAnalysis),总数加起来 5 万块。H100 自发布起就被出口管制禁止了,如果 DeepSeek 拥有任何 H100,那么这些应该是被走私的(不过英伟达声明DeepSeek 的进展“完全符合出口管制要求”)。H800 在2022 年出口管制最初版本发布后依然可售,但到 2023 年 10 月随着新版管制出台被禁止了,所以这些 H800 也可能是在被禁之前交付的。H20 在训练效率方面比 H100 和 H800 更低,更多用于推理,目前还在允许范围内,但我认为也应该被禁。
总之,看上去 DeepSeek 的芯片池中,相当一部分芯片还属于未被禁(但本应被禁)的产品、禁令出台前采购的产品,以及某些很可能走私而来的产品。这说明出口管制确实在发挥作用并且在不断更新:漏洞正在被修补;要不然他们很可能拿到全套顶级的 H100。如果我们能足够快地堵上漏洞,就能阻止中国获得上百万块芯片,从而增加美国主导的单极世界格局出现的可能性。
基于我对出口管制和美国国家安全的关注,我想明确指出:我并不把 DeepSeek 视为对手,也无意单独针对它们。从他们的采访看,这些人似乎是聪明而好奇的研究者,只是想做出有用的技术。
但他们背后受中国政府控制,如果它能在 AI 上与美国势均力敌,那么它在上述行为上就会更加为所欲为。出口管制是我们最有力的工具之一来防止这种局面的发生,而“技术更强大,性价比更高”这一事实却被用来当作放松管制的理由,是毫无道理的。
脚注
- • [注 1]: 我在本文中对关于“DeepSeek 是否从西方模型中蒸馏”这一报道不做任何立场表态。这里我只参考 DeepSeek 在论文中对其训练方式的描述。
- • [注 2]: 顺带一提,我认为 DeepSeek 模型的发布显然不会对英伟达造成负面影响,而英伟达股价因这一发布而出现两位数(~17%)的跌幅让我匪夷所思。其实即便对 AI 公司而言,这次发布对它们来说也并非负面。但我这篇文章的主要目标还是为出口管制政策进行辩护。
- • [注 3]: 为了绝对准确,应说明这是一个预训练模型,同时包含在“推理范式转变”前一般规模极小的 RL 训练。
- • [注 4]: 它在一些非常狭窄的任务上更强。
- • [注 5]: 这是DeepSeek 论文里给出的数字——我在这里只是基于其表面说明,而不去质疑该部分本身,只是质疑与美国公司训练成本之间的对比,以及单个模型的训练成本(600 万美元)与整个研发成本(数额要大得多)之间的区别。当然,我们也不能百分百确定他们的 600 万美元——模型规模可以验证,但所使用的数据量(token 数量)等因素并不透明。
- • [注 6]: 在某些采访中,我曾说他们有“5 万块 H100”,这是对报道内容的简略表达,其实略有不准确,所以我在此做出更正。最著名的“Hopper”芯片是 H100(我当时下意识以为指的就是它),但其实 Hopper 系列还包括 H800 和 H20,DeepSeek 据报拥有 5 万块由三者组成的混合组合。这并不会从本质上改变结论,但值得在此说明。我将在讨论出口管制时,进一步提及 H800 和 H20。
- • [注 7]: 注意:我预计在下一代集群上,这个差距会因为出口管制而进一步扩大。
- • [注 8]: 我猜测 R1 之所以获得如此多关注,其中一个主要原因是它会将模型的 chain-of-thought 直接展示给用户(而 OpenAI 的 o1 只显示最终答案)。DeepSeek 展示出来后,的确发现用户对这样的可视化推理过程非常感兴趣。需要说明的是,这只是界面设计层面的选择,并不影响模型本身。
- • [注 9]: 注意,中国自研的芯片在短期内无法与美国制造的芯片相竞争。在我和 Matt Pottinger最近的文章中,我们写道:“中国最好的 AI 芯片——华为的 Ascend 系列——与美国企业 Nvidia 的顶级芯片相比性能要差不少。中国也不见得有足够的产能来应对国内需求。到目前为止,中国境外尚没有值得关注的华为 Ascend 集群,这表明中国在满足其国内需求上都很吃力……”
- • [注 10]: 必须澄清:我们的目标并不是阻止中国或其他威权国家享受超强 AI 在科学、医疗、生活质量等方面带来的巨大收益。每个人都应该能受益于 AI。我们的目标是防止它们获得军事上的主导地位。↩
- • [注 11]: 这里提供几个链接,因为曾经历过多轮出口管制:
- • 链接一 https://www.reuters.com/article/technology/us-restricts-exports-to-chinese-semiconductor-firm-fujian-jinhua-idUSKCN1N328E/
- • 链接二 https://www.federalregister.gov/documents/2022/10/13/2022-21658/implementation-of-additional-export-controls-certain-advanced-computing-and-semiconductor
- • 链接三 https://www.axios.com/2023/10/17/biden-export-restrictions-ai-chips-china
- • 链接四 https://www.bis.gov/press-release/biden-harris-administration-announces-regulatory-framework-responsible-diffusion