自年初以破晓之势震撼全球AI领域后,“DeepSeek时刻”就成为AI领域关键节点的代名词。即便在OpenAI等“硅谷新贵”发布新品的间隙,不少海外用户也在搜寻关于DeepSeek-R2的蛛丝马迹。
8月6日,OpenAI、Google DeepMind、Anthropic在同一天放出王炸:OpenAI 开源 GPT-OSS,性能达到o4-mini水平,且能在高端笔记本上运行;Anthropic 推出 Claude Opus 4.1,重点强化了Agent 任务执行、编码和推理能力;Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界。
OpenAI推出开源语言模型GPT-OSS拉开了序幕,紧接着GPT-5也于8月7日(美国时间)发布。“使用GPT-4 感觉像在和一名大学生对话,而用GPT-5是第一次让我真正感觉像在与一位博士级别的专家交谈。”OpenAI CEO Sam Altman 如此形容GPT-5 能力的提升。
就在OpenAI、Google DeepMind、Anthropic三大AI巨头上演“神仙打架”的当口,有海外网友直接贴脸开大,在一张自制图片上加上了DeepSeek-R2,并附言“We are in for a treat”(我们有好戏看了)
未见其人,先闻其声。自今年初 DeepSeek-R1凭着高性能、低成本和开源的特点引爆全球科技圈以来,产业界便期盼梁文锋团队能带来新的惊喜,而R2作为R1的后续产品,近半年来一直是行业关注的焦点。
R2推出时间成谜
查阅杭州深度求索人工智能基础技术研究有限公司(以下简称深度求索)微信公众号、官网、X账号等公司官方渠道发现,截至目前,DeepSeek并未正式公布过DeepSeek-R2的信息。
行业关于DeepSeek-R2的信息不少都来自海外媒体。
早在2月份,路透社就曾爆料,DeepSeek内部正在加速推出R2模型,该模型原计划在5月初发布。不过从实际进展看,截至目前,依然未见DeepSeek-R2的踪影。
据深度求索官方微信号显示,自2025年3月至今,DeepSeek的动向主要集中在DeepSeek V3 模型和DeepSeek R1的小版本升级上。
3月25日,DeepSeek V3 模型完成小版本升级,版本号 DeepSeek-V3-0324。该模型参数约 660B,开源版本上下文长度为128K(网页端、App和API提供64K 上下文)。
据DeepSeek介绍,升级后的DeepSeek V3 模型在推理任务表现、前端开发能力、中文写作、中文搜索能力等方面都有所优化。
DeepSeek最近一次版本升级为5月29日推出的DeepSeek-R1-0528。与之前的 DeepSeek-R1相比,DeepSeek-R1-0528 仍然使用2024年12月发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,提升了模型的思维深度与推理能力。
大模型训练可简单分成三个阶段——预训练、后训练、微调。一般而言,后训练主要是为了解决大模型幻觉率高、理解指令不足等问题。
据DeepSeek官方信息显示,DeepSeek-R1-0528对“幻觉”问题进行了优化,与旧版相比,新版 DeepSeek R1在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45—50% 左右。
从DeepSeek官网公布的信息来看,过去半年里,DeepSeek主要保持小步迭代的节奏,不断优化R1在复杂推理、创意写作和降低幻觉率等方面的功能,而非急于推出下一代模型。
对于DeepSeek R2迟迟未能面世的原因,外媒The Information于6月报道称,R2很可能不会在短期内发布了,原因主要有以下两点。
一是梁文锋对新模型不满意。“尽管DeepSeek工程师过去数月一直在高强度开发 R2 模型,但CEO 梁文锋对新模型的性能表现并不满意。”The Information援引两位知情人士报道称。
二是算力储备紧缺。据The Information报道,英伟达H20芯片的意外禁售,使得DeepSeek在算力储备上出现紧缺状况。梁文锋担心新模型一旦上线,会因为短时间内调用量过高而造成体验不佳。
对于“英伟达H20禁售影响了DeepSeek R2推出”这一说法,有投资人透露,受出口限制影响,英伟达H20的单卡算力被严重“阉割”,其优势不在训练,而在推理。
“AI推理市场未来将比训练市场更大,应用场景遍布云端、边缘和终端,形态更加多元,对单一生态(如英伟达)的依赖性降低。随着国内供应链自主化趋势越来越明确,英伟达H20的禁售与否对国内推理芯片生态影响有限。”上述投资人说。
“DeepSeek最不缺的就是流量”
就在DeepSeek模型小步迭代的当下,OpenAI、月之暗面(Moonshot AI)等竞争对手正通过迭代新模型、推出新AI产品等加速技术布局。
在国内,曾被DeepSeek抢走风头的月之暗面7月11日发布了Kimi K2 模型,拥有1万亿总参数(320亿激活参数),采用专家混合(MoE)架构,并同步开源。对于部分网友指出Kimi K2有“抄袭”DeepSeek的嫌疑,Kimi 团队也大方地承认“其采用了与DeepSeek -V3相似的架构”。
在海外,OpenAI、Google DeepMind、Anthropic等AI巨头在模型迭代方面一直火力全开。
当AI大模型竞速逐步从完善功能升级为代际比拼时,或许留给 DeepSeek 的“沉默期”正在收窄。比较直观的感受是,DeepSeek的月活用户规模和使用率较年初峰值已出现下滑。
据QuestMobile数据显示,虽然DeepSeek仍是国内用户量最多的AI工具平台,但其移动端月活跃用户规模已经从今年3月的1.94亿下降至6月的1.63亿。而据Semianalysis的统计数据显示,DeepSeek的使用率由年初高点的7.5%下滑至7月份的3%。
需要指出的是,上述机构的数据统计主要以DeepSeek官网为主,不包括腾讯元宝、百度、夸克等深度接入DeepSeek的第三方渠道。
有投资人评价称,DeepSeek最不缺的就是流量,梁文锋要做的事情一直都是在探索AGI的本质。
联想创投集团高级合伙人和首席投资官宋春雨去年2月就和梁文锋有过深度交流,“梁文锋是坚信AGI的人,他是技术极客背景出身,他给自己的使命就是要去摸AGI的上限,或者说人类能达到硅基智能的上限是什么。DeepSeek不融资,梁文锋对商业化不感兴趣,他专注打磨基础模型,确保每一代模型都保持领先。”
有消息称,DeepSeek不会为了达成某一数据指标,在安卓及iOS渠道上投流,其和用户的交流主要以近百个微信交流群为主。
对于公司为何不重运营DeepSeek应用,梁文锋在去年接受“暗涌Waves”采访时表示:“我们认为,当前阶段是技术创新期,而不是应用爆发期。从长远来看,我们希望建立一个生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。如果产业链完整,我们无需亲自做应用。当然,如果有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。”
梁文锋在忙什么?
自1月20日DeepSeek R1发布至今,梁文锋几乎处于“隐身”状态,其仅有的两次公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。
有消息称,梁文锋一直保持着每天看论文、写代码、参与小组讨论、招聘核心技术人员的习惯。
据不完全统计,自今年2月至7月,DeepSeek团队和梁文锋一共发表了两篇论文。
一篇是DeepSeek于2月18日在社交平台X上挂出的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,主要介绍 NSA:一种与硬件对齐且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。
据该论文显示,NSA的核心组件主要包括动态分层稀疏策略、粗粒度标记压缩、细粒度的令牌选择。NSA 针对现代硬件进行了优化设计,在不影响性能的情况下,加快了推理速度,同时降低了预训练成本。它在通用基准测试、长上下文任务和基于指令的推理方面,性能堪比甚至超越了全注意力模型。
其中,梁文锋(Wenfeng Liang)作为作者之一出现在论文作者名单里。
另外一篇论文是,今年4月3日DeepSeek团队和清华大学计算机科学与技术系(Dept. of Computer Sci. & Tech.)及人工智能产业研究院(AIR)联合发表的论文《Inference-Time Scaling for Generalist Reward Modeling》。
该论文主要提出了原则批判调整(Self-Principled Critique Tuning, SPCT)方法,提升通用reward model(奖励模型)在推理阶段动态分配计算资源(如多次采样)以提升性能的方法(inference-time scaling)等。
除发表论文外,DeepSeek自今年4月下旬以来,明显加快了在海内外“招兵买马”的节奏。
据DeepSeek官网显示,目前“产品&设计”、“深度学习研发工程师”、“全栈开发工程师”、“核心系统研发工程师”、“深度学习研究员”等岗位都处于“急招”状态。
在Meta开“天价Offer”抢人的当下,DeepSeek也在尝试吸引海外人才加入。
据海外招聘平台领英信息显示,DeepSeek也用中文在领英上发布了10个职位,招聘前端开发工程师、全栈工程师、核心系统研发工程师、深度学习研发工程师、深度学习研究员、AGI大模型实习生等,工作地点在北京或杭州。
有曾参与DeepSeek的面试的人士透露,“面试时可直接与创始人对话,公司不设KPI考核,采取扁平化管理模式,每位核心算法人员都能直接与梁文锋探讨问题,不太像传统公司,更像大学的一个研究团队。”