DeepSeek 宣布其 V4 正式版将于七月中旬推出。官方表示,为优化资源配置和提升服务稳定性,正式版上线后将调整 API 定价策略,引入峰谷定价机制。
在 V4 正式版发布前,DeepSeek 近期有两件备受关注的事件。首先是 6 月 16 日,公司完成了首次外部融资,融资金额达 510 亿元人民币,公司估值接近 4000 亿元人民币,这标志着创始人梁文锋打破了其原先“不融资、不上市、不商业化”的原则。其次,在获得融资后不久,即 6 月 27 日,DeepSeek 团队与北京大学合作发表了题为《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》的论文,梁文锋亦是该论文的作者之一。
若说 DeepSeek 的上半场致力于证明其具备打造世界一流大模型的能力,那么在资本与技术的结合之下,其下半场的目标便是证明其作为一家商业化公司的实力。
500亿融资后,DeepSeek 启动人才招募与组织建设
自融资完成以来,DeepSeek Harness 团队的新负责人崔添翼正积极开展工作。6 月 25 日晚,DeepSeek 发布了大规模招聘信息,涵盖算法、研发、运维、产品、数据工程师以及职能部门等七大类共计 33 个职位,工作地点包括北京和杭州,并接受实习生申请。崔添翼,作为梁文锋的校友,于今年 3 月加入 DeepSeek,他本人也在多个社交平台(如 DeepSeek 官网、Boss 直聘、X 和小红书)上发布招聘信息,并就“DeepSeek 招聘要求高学历”的传言进行澄清。
此前,DeepSeek 表现得更为低调,主要依靠创始人梁文锋创办的量化私募基金“幻方量化”的收益支持,后者管理规模超 700 亿元,年化收益率达 56.55%,使得 DeepSeek 并不依赖外部资金。
促使梁文锋改变融资策略的可能因素包括核心人才的流失风险以及日益激烈的人才竞争。作为对比,已上市的智谱(“大模型第一股”)市值已接近万亿港元,MiniMax 市值也超过 1300 亿港元。而 DeepSeek 员工的期权缺乏市场估值参考,相比其他头部大模型公司,其员工可能面临留存的挑战。一位接近 DeepSeek 的资深从业者指出,不融资将影响公司估值增长,进而影响员工期权的价值,不利于留住人才。
为留住人才,DeepSeek 正在加大投入。其核心竞争力之一在于一支由百余名高学历人才组成的团队,他们与创始人梁文锋共同打造了 DeepSeek-R1。当前,互联网大厂持续以高薪吸引顶级 AI 研究员,市场对 AI 人才需求旺盛,算法岗位月薪中位数已超 2.4 万元,头部人才月薪超 5 万元。此次大规模招聘不仅包括技术岗位,还涉及 HR、法务、财务、采购、行政等职能部门,显示出 DeepSeek 在补齐科技公司组织能力方面的努力,旨在从“产品驱动”转向“组织驱动”,为后续产品红利的释放奠定基础。500 亿融资一方面用于人才激励,另一方面也为完善组织架构提供了资金支持。DeepSeek 需要在扩大规模的同时,保持团队的精简高效和决策的灵活性。
DeepSeek 转向重资产投入
在 6 月 25 日发布的招聘信息中,IDC(互联网数据中心)相关岗位值得关注,这表明 DeepSeek 开始涉足基础设施建设。早在 4 月份,公司已在内蒙古乌兰察布招聘数据中心运维和交付岗位,6 月份又增加了 IDC 设计规划工程师。这意味着 DeepSeek 的人才布局已从模型研发扩展到算力基础设施建设。
随着大模型训练和推理进入规模化阶段,AI 模型公司的竞争将不可避免地涉及基础设施的硬件竞赛。DeepSeek 正步入与硅谷头部大模型公司类似的自建算力集群的重资产模式。Alphabet、亚马逊、Meta 和微软等科技巨头预计今年将在 AI 基础设施上投入约 6500 亿美元。Anthropic 和 OpenAI 也持续强调对算力基础设施的投入。例如,Anthropic 预计每月将向 SpaceX 支付约 12.5 亿美元用于数据中心容量租赁。
工信部信息通信经济专家委员会委员盘和林指出,当前 AI 投资热潮下,大模型企业融资是必然趋势,行业已进入重资本阶段。DeepSeek 的融资正是为了在算力基础设施建设上不落后,并投入到相关建设中。值得注意的是,DeepSeek 在海外先进算力出口受限的背景下进行算力基础设施建设,这意味着其将依赖国产芯片。在 V4 版本发布时,DeepSeek 已提及在官方页面和技术报告中对国产算力的探索。华为提出的“韬(τ)定律”以及国产大模型对国产算力的适配,都指向“自主可控的 AI 基础设施”这一目标。
AGI 的前夜
对于 DeepSeek 这样的基础模型公司而言,仅有资本和组织不足以支撑长期领先,持续产出原创技术是关键。有资深算力从业者强调,本轮大规模融资旨在激励团队、留住人才,从而训练出更好的模型,巩固其头部地位。
DeepSeek 在新技术探索方面的成果体现在其发表的论文上。近两年,DeepSeek 已公开发表约 27 篇核心技术论文,研究方向涵盖 MoE、强化学习、代码大模型、数学推理、多模态等,几乎对应其模型和技术的每一次关键突破。
6 月 27 日,DeepSeek 在 GitHub 上发布了一篇关于“DSpark”的新技术论文。该论文并非关于新模型的迭代,而是在现有 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 模型基础上增加了推测解码模块,重点在于工程落地优化。DeepSeek 计划将 DSpark 应用于 V4 线上服务系统,以减少算力浪费。论文指出,在不改变底层模型架构的情况下,DSpark 可将生成速度提升 60%-85%。对于处理海量 API 请求的 AI 公司而言,算力成本的降低将直接转化为利润的增加。
据 VentureBeat 报道,模型训练成本将持续攀升,Anthropic CEO Dario Amodei 预测下一代前沿模型的训练成本可能高达 50 亿至 100 亿美元。DeepSeek 也将进入这一“烧钱”的训练阶段。融资是支持其模型迭代的必然选择。
融资后仅十几天便发布新论文,表明 DeepSeek 的研发节奏未变,团队保持着高频输出。无论是推出新模型、建设数据中心,还是从“天才实验室”转型为商业化运营的 AI 公司,DeepSeek 的终极目标是 AGI(通用人工智能)。梁文锋在 2024 年的采访中曾明确表示,其目标是 AGI,而语言大模型是通往 AGI 的必经之路。
在免费阶段,用户对响应失败、对话中断等问题尚可容忍。但 V4 正式版上线后,用户对稳定性的要求将提高,这些问题将直接影响用户是否愿意将 DeepSeek 集成到真实工作流和业务系统中。在付费和开发者生态层面,DeepSeek 的工程能力将面临更严峻的考验,能否实现大规模应用是迈向 AGI 时代的关键一步。
DeepSeek 在推动中国大模型降本增效的同时,也面临自身的发展挑战:AGI 关键时期,首要任务是留住人才,其次是持续模型训练和技术迭代,同时在数据中心基础设施建设上也不能落后。仅依靠梁文锋的量化私募基金已不足以支撑。DeepSeek 在 2026 年启动融资将是必然的选择。正如其 6 月 25 日发布的招聘公告所言:“当今人类正处于 AGI 的前夜。”
DeepSeek 接下来的挑战是更长期、更烧钱的 AGI 竞赛。能否在大模型竞赛中脱颖而出后,继续在 AGI 进程中保持领先地位,将是 DeepSeek“下半场”需要回答的第二个问题。