AI 新闻

中国开源黑马DeepSeek用29.4万美元训练出顶级AI,远远低于其美国竞争对手的报告数据,改写全球科技竞赛规则?

开源黑马DeepSeek改写AI科技竞赛规则 Chinese open-source DeepSeek trained top-notch AI Rewrite the rules of the global science competition Cross-Cultural Investment Fusion

北京/旧金山 – 一场关于人工智能未来的“地震”正从东方传来,其震源是一家名为深求智能(DeepSeek)的中国公司。最近,权威科学期刊《自然》上的一篇论文披露了一个惊人的数字:DeepSeek训练其先进的推理AI模型R1,成本仅为29.4万美元。这个数字,如同一枚投入平静湖面的深水炸弹,不仅让耗资数亿美元的美国同行们(如OpenAI和谷歌)黯然失色,更在全球科技界引发了一场关于效率、创新和未来霸权归属的深刻反思。

这不仅仅是一个关于成本的故事。这是一个关于智慧策略韧性的故事。在一个由巨头主导、资本和顶级芯片似乎决定一切的领域,DeepSeek,这匹来源中国的“黑马”,正以一种颠覆性的姿态,挑战着硅谷固有的“力量法则”。它的崛起,不仅让微软CEO萨提亚·纳德拉(Satya Nadella)惊呼其为新的“行业标杆”,更迫使我们所有人重新思考:通往人工智能的“罗马”,是否真的只有一条由万亿资本铺就的大道?

DeepSeek的故事提供了一个宝贵的视角:创新并非总是与巨额投入划等号,而开放与协作的力量,有时能爆发出比封闭的“军备竞赛”更强大的生命力。

“成本神话”的诞生与技术迷雾

294,000美元,这笔钱,在硅谷可能仅够支付几位顶尖AI工程师几个月的薪水,或者购买一小部分高性能计算集群的机架。然而,DeepSeek宣称用它完成了训练一个世界级AI模型的核心工作。这究竟是如何做到的?

《自然》期刊的论文详细说明,DeepSeek R1模型的训练使用了512块英伟达(Nvidia)的H800芯片。这里有一个关键的背景:H800是英伟达在美国于2022年10月实施出口管制后,为中国市场“特供”的芯片。它的性能,特别是在芯片间高速互联方面,相较于全球市场顶级的H100或A100芯片有所削减。

这就像一场赛车比赛,DeepSeek的赛车引擎受到了限制。然而,他们并没有因此放弃,反而通过极致的软件优化、创新的算法和对计算资源的精妙调度,在这台“受限的引擎”上压榨出了惊人的效率。这证明了一个深刻的道理:硬件的极限可以通过软件的智慧来超越

DeepSeek的硬件故事并非一帆风顺。美国官员曾在6月声称,DeepSeek获得了“大量”在出口管制后采购的顶级H100芯片。英伟达对此予以否认,坚称DeepSeek合法使用的是H800。

在《自然》期刊的补充材料中,DeepSeek首次承认其确实拥有更强大的A100芯片,并表示这些芯片被用于项目开发的“准备阶段”,例如在较小的模型上进行实验和验证。随后,核心的R1模型才转移到512块H800芯片集群上,进行了总计80小时的高强度训练。

这一细节的披露,部分解释了DeepSeek为何能吸引中国最顶尖的AI人才——拥有A100超级计算集群,在当时的中国国内是极其稀有的宝贵资源。

另一个围绕DeepSeek的争议是关于其使用的“蒸馏”(Distillation)技术。简单来说,这是一种让一个较小的“学生”AI模型,通过学习一个更强大的“老师”AI模型的输出来进行训练的技术。这样做的好处是,“学生”模型能够以极低的成本继承“老师”模型的部分“智慧”和能力,而无需重复“老师”模型昂贵的从零开始的训练过程。

美国顾问和一些AI领域的专家曾指责DeepSeek“故意蒸馏”OpenAI的模型。DeepSeek对此一直坚称,“蒸馏”是一种合法且高效的技术,它能显著降低AI的训练和运营成本,从而让更多人能享受到AI技术带来的好处,特别是在AI模型能耗巨大的背景下,这具有重要的现实意义。

在《自然》期刊的论文中,DeepSeek对此给出了一个更微妙的解释。他们承认其V3模型的训练数据来源于抓取的公开网页,而这些网页中包含了“大量由OpenAI模型生成的回答”。因此,他们的模型可能“间接地从其他强大模型中获取了知识”。但DeepSeek强调,这并非有意为之,而是在抓取海量互联网数据时偶然发生的,是一种无法完全避免的“知识渗透”。

这个解释将一个尖锐的知识产权问题,转化为一个关于互联网信息生态的复杂讨论:在一个AI生成内容(AIGC)日益普及的世界里,如何界定“原创数据”和“AI污染数据”的边界?

AI Design The multi-step pipeline of DeepSeek-R1 DeepSeek-R1的多步骤管道 AI设计

AI Design The multi-step pipeline of DeepSeek-R1 DeepSeek-R1的多步骤管道 AI设计

开放的力量——“这不仅是一个模型,这是一场运动”

DeepSeek的崛起,不仅仅是技术和成本上的突破,更深层次的原因在于其激进的开源策略。在一个顶级AI模型大多被科技巨头作为“传家宝”严密保护的时代,DeepSeek选择了一条截然不同的道路。

当OpenAI的GPT系列、Anthropic的Claude系列等闭源模型通过API调用向企业收取高昂费用时,DeepSeek将其最先进的模型(如V3.1)在Hugging Face等平台上开源,允许全球的开发者免费下载、研究、修改和使用。

这一举动直接挑战了美国AI领导地位背后的核心商业逻辑。一位开源社区的倡导者这样评价DeepSeek:“这不仅仅是一个模型,这是一场运动。” 这场运动的核心理念是:开放、协作和透明,是推动AI技术更快、更好地发展的最佳途径。

DeepSeek V3.1的发布,被精心安排在OpenAI的GPT-5和Anthropic的Claude 4.1发布之后。它在多项关键基准测试中,性能与这些顶级闭源模型不相上下,甚至在某些方面有所超越。而当一些用户对GPT-5的表现感到失望时,一个性能强大且完全免费的开源替代品——DeepSeek V3.1,自然吸引了全球开发者的目光。

这种策略让DeepSeek在不到两年的时间里,迅速从一个名不见经传的中国初创公司,成长为全球AI开源社区的一面旗帜。其同名应用在发布后仅一周,就登顶美国免费应用下载榜,这足以证明其巨大的吸引力。

对于普通家庭来说,DeepSeek的开源模型提供了一个前所未有的机会。他们不再需要昂贵的API密钥,就能接触和学习世界上最前沿的AI技术,这极大地降低了学习和创新成本,真正实现了AI的“普惠”。

 

硅谷的“DeepSeek时刻”与全球AI格局的重塑

DeepSeek带来的冲击波,已经深刻地影响了全球科技巨头的战略思考。

微软CEO萨提亚·纳德拉在一次公开讲话中,毫不吝啬地表达了他对DeepSeek的赞赏。他对一个仅有约200人的团队,如何能打造出一款登顶应用商店的AI产品感到“超级印象深刻”。他明确表示,DeepSeek已经成为微软在AI领域衡量自身效率和成功的新的“评判标准”(Benchmark)。

具有讽刺意味的是,旨在减缓中国AI发展的美国芯片出口管制,可能在某种程度上“倒逼”了DeepSeek的创新。正如一些分析指出的,当无法轻易获得最顶级的芯片时,中国的工程师们被迫将更多精力投入到算法优化和提升计算效率上。

这种“稀缺性驱动的创新”,让DeepSeek等公司走出了一条与美国“算力大力出奇迹”不同的技术路径。从长远来看,这种在资源受限条件下磨练出的高效创新能力,可能成为一种更具韧性和竞争力的优势。

DeepSeek的成功,为全球AI的未来发展描绘了一幅更令人兴奋的图景。它预示着,AI的世界可能不会被少数几家科技巨头所垄断。来自不同国家、不同背景的团队,只要拥有卓越的才智和创新的理念,都有机会参与到这场伟大的技术变革中来。

开源模式将催生一个更加繁荣和多元化的AI生态系统。开发者们可以基于DeepSeek这样的基础模型,去创造无数针对特定行业、特定需求的AI应用,就像当年基于开源的Linux系统诞生了安卓生态一样。这将极大地加速AI在教育、医疗、娱乐等各个领域的普及和应用,最终惠及每一个家庭。

DeepSeek的故事,远未结束。它由一位低调的创始人梁文锋(同时也是中国顶尖量化对冲基金“幻方”的联合创始人)领导,其未来充满了无限可能和不确定性。但它已经向世界证明:

  • 创新不问出处:颠覆性的想法可以诞生在任何地方,而不仅仅是硅谷的车库里。
  • 效率是新的力量:在AI时代,如何更聪明地使用资源,可能比拥有多少资源更为重要。
  • 开放是通往未来的钥匙:共享知识、协同创新,是人类应对共同挑战、加速技术进步的最有效方式。

对于我们每一个人来说,无论是科技从业者、投资者、教育者,DeepSeek的故事都提供了一个宝贵的启示:在一个快速变化的世界里,保持开放的心态,关注那些敢于挑战常规的“破局者”,并鼓励下一代去学习和拥抱那些能够赋能更多人的技术,这或许才是我们赢得未来的最佳策略。

中国开源黑马DeepSeek改写AI科技竞赛规则Isometric GPU Infographic Chinese open-source dark horse DeepSeek trained top-notch AI Rewrite the rules of the global science and technology competition

中国开源黑马DeepSeek改写AI科技竞赛规则

关于本篇报道的思考 

问1:您认为这篇报道的可信度或相关性如何?

我认为这份报告(基于《自然》期刊的论文和相关事实)具有极高的可信度和相关性。

可信度 (Credibility)

  • 核心信源权威:《自然》(Nature)是全球顶级科学期刊,其发表的论文经过严格的同行评审。由DeepSeek团队(包括创始人梁文锋)共同署名发表的数据,具有科学出版物级别的可信度背书。
  • 多方交叉验证:报道中的关键信息,如芯片型号(H800/A100)、微软CEO的评论、开源社区的反应等,都可以从路透社、科技媒体和公开记录中得到交叉验证,形成了完整的证据链。
  • 逻辑自洽:尽管成本数字令人震惊,但结合其使用的“受限”芯片、高效的“蒸馏”技术以及开源策略,其低成本、高效率的逻辑是内在自洽的,并非天方夜谭。

相关性 (Relevance)

  • 触及行业核心议题:AI的训练成本、算力依赖、中美科技竞争、开源与闭源之争,这些都是当前科技领域最核心、最受关注的议题。DeepSeek的案例恰好是所有这些议题的交汇点,因此与行业发展高度相关。
  • 引发市场和政策连锁反应:报道中提到,DeepSeek的出现曾一度引发科技股的抛售,并迫使美国政策制定者重新评估其出口管制策略的有效性。这表明其影响力已经超越技术圈,直接作用于资本市场和国际关系层面。
  • 对未来的深远启示:这不仅仅是一则关于一家公司的新闻,它揭示了一种可能改变AI发展轨迹的新模式。对于任何关心技术未来、创新战略和全球竞争格局的人来说,这个案例都具有极高的研究和参考价值。

这份报告是理解当前全球AI竞赛动态和未来趋势的一个关键切入点。

问2:您对这个主题有何看法?

我对这个主题的看法是——这是一个“范式转移”的标志性事件,充满了令人振奋的可能性,同时也伴随着复杂的现实挑战。

令人振奋的方面:

  • AI的“民主化”曙光:我最为兴奋的是DeepSeek的开源策略所带来的“AI民主化”潜力。它打破了顶级AI技术被少数巨头垄断的局面,极大地降低了全球中小企业、研究机构、甚至个人开发者参与前沿创新的成本。这就像印刷术的发明,让知识不再为少数人独享,必将催生一波难以估量的创新浪潮。
  • 对“唯算力论”的有力反驳:长期以来,AI领域似乎陷入了一种“算力军备竞赛”的迷思,认为只有无限的资本和最顶级的芯片才能推动进步。DeepSeek的成功证明了算法的巧思、工程的极致和策略的智慧同样是,甚至可能是更可持续的创新驱动力。这为资源相对有限但智力资本雄厚的参与者带来了希望。
  • 健康的全球竞争格局:一个有力的竞争者,无论来自哪里,都能促使领先者保持警醒,不敢懈怠。DeepSeek的存在,对OpenAI、谷歌等公司形成了良性的压力,将促使它们加快创新、降低成本、提升服务,最终受益的是全球的用户。

复杂的现实挑战:

  • 知识产权的模糊地带:关于“蒸馏”和训练数据中“偶然包含”AI生成内容的争议,揭示了现有知识产权法律在AI时代的滞后性。如何界定AI模型的“学习”与“抄袭”,如何保护原创者的权益,同时又不扼杀创新,将是未来全球法律界面临的巨大挑战。
  • 地缘政治的博弈:DeepSeek的成功不可避免地会被置于中美科技竞争的宏大叙事之下。这可能使其在拓展西方市场时面临额外的审查和不信任,其技术和商业决策也可能受到地缘政治因素的影响。
  • 开源的“双刃剑”:开源在带来普惠和创新的同时,也带来了安全的风险。如何确保强大的开源AI模型不被用于恶意目的,需要建立一个全球性的、负责任的AI治理框架,但这无疑是极其困难的。

DeepSeek如同一位“破壁者”,打破了我们对AI发展路径的许多固有认知。它所代表的高效、开放、务实的创新精神,是这个时代最宝贵的财富。我们应该以开放和学习的心态去看待它,既要赞赏其技术上的巨大成就和对开源社区的贡献,也要正视其引发的复杂问题。

对于家庭和下一代来说,最重要的启示是:永远不要被表面的“壁垒”所吓倒,无论是技术的、资本的还是地缘的。真正的突破,往往源于在限制中寻找自由,在挑战中发现机遇的创造性思维。

观看DeepSeek新AI模型的解析本视频提供了DeepSeek V3.1模型的详细分析,将其性能和成本效益与竞争对手如GPT-5进行比较,这与文章的核心主题相一致。

背景科普

什么是“训练成本”?
训练一个大型语言模型,简单来说是让一堆强大的计算芯片在大量文字和代码上反复做“练习”,以便学会如何写文章、回答问题或进行推理。这个过程需要数周到数月的连续计算,消耗电力与时间,这些就是训练成本的主要来源。

什么是GPU(例如A100、H100、H800)?
GPU(图形处理器)是训练模型的“发动机”。不同型号(A100、H100、H800)在计算能力与能效上有差异。美国对某些高性能芯片对华出口设置了管控,因此厂商推出了专供市场(如H800)或替代方案。芯片型号并非单纯“越新越好”,而是要看任务、成本与可获得性。

什么是“蒸馏(distillation)”?
蒸馏是一种“借力”方法:用一个大型、训练昂贵的“教师模型”来教一个更小、更廉价的“学生模型”,使后者获得较好表现但成本更低。关键问题是:教师模型的权利、来源和训练数据是否合法、透明。

 

 

 

 

 

 

 

 

 

 

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注