一、模型概览与评测背景

在 V3.2 系列完成多轮稳定迭代后,深度求索于 2026 年 4 月 24 日正式推出了 DeepSeek-V4 系列大模型,并延续其一贯的开源策略同步开放了全部模型权重。2026 年 5 月 22 日,官方宣布对 V4-Pro API 价格进行永久性下调,进一步降低了该模型的商用门槛。本次发布包含两款不同定位的产品:旗舰级的 DeepSeek-V4-Pro 拥有 1.6 万亿总参数量,单次推理激活 490 亿参数;轻量级的 DeepSeek-V4-Flash 则以 2840 亿总参数量和 130 亿激活参数实现了性能与资源消耗的平衡。两款模型均原生支持 100 万 token 的超长上下文窗口,官方将其核心定位为:通过创新的混合稀疏注意力架构大幅降低长上下文推理成本,在智能体能力、通用世界知识和逻辑推理性能三个方向上确立国内及开源领域的领先地位。

二、代际对比:能力重心的战略性转移

与上一代旗舰 DeepSeek-V3.2-Think 相比,DeepSeek-V4-Pro 并非简单的全面升级,而是一次清晰的能力结构再平衡。

核心指标变化

效率与成本分析

三、横向对比:在当前大模型格局中的定位

在 2026 年中激烈的大模型竞争环境下,作为深度求索面向长上下文和智能体场景打造的新一代旗舰,DeepSeek-V4-Pro 的表现如何?本次评测重点关注中文文本场景下的综合能力,所有对比数据均来自非线智能 ReLE 中文大模型评测体系。

同成本档位竞争力分析

降价后的 DeepSeek-V4-Pro 处于 10-20 元 / 千次调用的中高端成本区间,在该区间内的主要竞争对手包括 qwen3.5-plus(73.3%,22.9 元)、Doubao-Seed-2.0-pro(72.8%,22.5 元)、GLM-5.1(70.7%,73.8 元)和 GLM-5(69.0%,61.2 元)等。

在这一成本档位中,DeepSeek-V4-Pro 展现出了极强的竞争力。其 71.7% 的综合准确率与 qwen3.5-plus、Doubao-Seed-2.0-pro 等模型的差距已缩小至 1-2 个百分点,但调用成本更低。更重要的是,其 65 秒的平均响应时间明显快于同档位的其他推理型模型,如 GLM-5(130 秒)和 GLM-5.1(183 秒)。这种快速响应能力在智能体和代码开发场景中具有显著的工程价值,能够大幅提升开发和调试效率。

跨成本档位对比

产品线与行业格局分析

开源与闭源阵营对比

在开放权重阵营中,DeepSeek-V4-Pro 的 71.7% 综合准确率介于 qwen3.5-plus(73.3%)和 Qwen3.5-122B-A10B(70.9%)之间,同时高于 Kimi-K2.5-Thinking(70.8%)、GLM-5.1(70.7%)、Qwen3.5-27B(70.6%)和 GLM-5(69.0%)等近期发布的开源模型。结合官方在 Apex Shortlist(90.2%)、SimpleQA-Verified(57.9%)等专项基准上的优异表现,V4-Pro 无疑是当前开源阵营中综合实力最强的模型之一。

与闭源前沿模型相比,DeepSeek-V4-Pro 的差距在 1-4 个百分点之间,并未被明显拉开。考虑到其完全开源、支持百万 token 长上下文、在智能体编程领域的独特优势,这种差距对于大多数实际应用场景而言已经可以接受,特别是对于需要私有化部署和深度定制的企业用户来说,V4-Pro 的价值尤为突出。

四、核心技术解析

结合官方发布的技术报告(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf),DeepSeek-V4 系列的核心技术创新可以概括为以下几个方面:

三大架构升级

  1. 混合注意力架构:V4 系列创新性地将压缩稀疏注意力(CSA)与重压缩注意力(HCA)交替使用。CSA 通过将每 m 个 token 的 KV 缓存压缩为单个向量再叠加稀疏注意力机制,在保证精度的同时大幅降低计算量;HCA 则采用更加激进的 KV 缓存压缩策略,进一步提升长上下文处理效率。
  2. 流形约束超连接技术:为了解决超深网络在超长上下文环境下的信号传播不稳定问题,V4 引入了流形约束超连接(mHC)技术。该技术在传统残差连接的基础上进行了增强,能够有效防止梯度消失和爆炸,同时不会损害模型的表达能力,为大规模模型的稳定训练提供了关键支撑。
  3. Muon 优化器应用:V4 系列在训练过程中全面采用了 Muon 优化器替代传统的 AdamW 优化器。Muon 优化器在收敛速度和训练稳定性方面表现出明显优势,DeepSeek 团队将其成功应用于 32 万亿 token 规模的预训练任务,这也是该优化器在超大规模工业级训练中的一次重要验证。

长上下文效率革命

这是 V4 系列最具突破性的技术成果。在百万 token 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用更是减少了 90%;轻量级的 V4-Flash 则进一步将这两个指标压缩至 10% 和 7%。这一技术突破使得百万 token 长上下文从 "实验室演示" 真正走向了 "大规模商业部署",为长文档处理、代码仓库分析、知识库问答等应用场景打开了全新的可能性。

FP4 量化感知训练

V4 系列在后训练阶段引入了 FP4(MXFP4)量化感知训练技术,主要应用于 MoE 专家层权重和 CSA 中的索引器 QK 路径。官方数据显示,在 V4 的特定配置下,FP4 到 FP8 的反量化过程是无损的,这使得整套量化训练流程可以直接复用现有的 FP8 训练框架,大幅降低了工程实现难度。

创新的后训练范式

V4 系列摒弃了传统的混合强化学习训练方式,采用了 "专家训练 + 在线策略蒸馏(OPD)" 的两阶段后训练范式。首先针对数学、代码、智能体、指令遵从等不同领域分别训练独立的专家模型,然后通过多教师在线策略蒸馏技术,将各个专家模型的能力有机融合到一个统一的模型中。这种方法有效避免了传统混合训练中不同任务之间的相互干扰问题,能够更高效地整合多领域能力。

三档推理强度设计

V4-Pro 和 V4-Flash 均支持三种不同强度的推理模式:

Think Max 模式需要配合特定的系统提示词使用,并建议将上下文窗口设置为至少 384K,以充分发挥模型的推理潜力。

官方在技术报告中也坦诚了当前模型的不足之处:在数学、STEM、HLE 等硬核推理基准上,V4-Pro 仍然落后于 GPT-5.4、Gemini-3.1-Pro 等闭源前沿模型;当前的架构相对复杂,未来还需要向更精简的方向演进;Anticipatory Routing 和 SwiGLU Clamping 等工程技巧的底层理论机制仍有待进一步研究。

五、官方基准测试结果

DeepSeek 官方在技术报告和博客中,将 V4-Pro-Max(即开启 Think Max 模式的 V4-Pro)与 Claude Opus 4.6、GPT-5.4、Gemini-3.1-Pro 等全球顶级闭源模型,以及 Kimi-K2.6、GLM-5.1 等顶尖开源模型进行了全面对比。

智能体能力

相比前代产品,DeepSeek-V4-Pro 的智能体能力实现了质的飞跃。在智能体编程专项评测中,V4-Pro 已经达到了当前开源模型的最高水平。官方表示,DeepSeek-V4 已经成为公司内部员工首选的智能体编程工具,根据内部使用反馈,其体验优于 Sonnet 4.5,代码交付质量接近 Opus 4.6 的非思考模式,但与 Opus 4.6 的思考模式相比仍有一定差距。

通用世界知识

在世界知识测评方面,DeepSeek-V4-Pro 大幅领先于其他开源模型,仅略逊于顶尖闭源模型 Gemini-3.1-Pro。具体来看,在 SimpleQA-Verified 基准测试中,V4-Pro-Max 取得了 57.9 分的成绩,相比上一代开源模型提升了约 20 分;在 Chinese-SimpleQA 中文知识基准上,V4-Pro-Max 更是取得了 84.4 分的高分,位居所有开源模型之首。

推理与代码能力

在数学、STEM 和竞赛型代码等硬核推理领域,DeepSeek-V4-Pro 超越了所有已公开评测的开源模型,取得了与世界顶级闭源模型相当的成绩。几项关键基准测试结果如下:

长上下文能力

在百万 token 级别的长上下文评测中,DeepSeek-V4-Pro 的表现超越了 Gemini-3.1-Pro,但仍落后于 Claude Opus 4.6(MRCR 1M 基准得分为 92.9 分)。在 128K 以内的上下文范围内,V4-Pro 的信息检索性能保持稳定,只有当上下文长度超过 128K 后,才会出现较为明显的性能衰减。

六、接入与使用建议

对于大多数开发者和企业用户来说,直接本地部署 1.6 万亿参数的 DeepSeek-V4-Pro 并不现实,通过 API 方式接入是更加便捷和高效的选择。目前,星链4SAPI 等国产 AI 聚合平台已经完成了对 DeepSeek-V4-Pro 的全面适配,提供了稳定可靠的 API 接入服务。

星链4SAPI 支持 OpenAI 兼容接口,开发者只需修改少量配置即可快速接入,无需针对不同模型单独开发适配代码。同时,该平台还提供了多模型统一管理、智能负载均衡、故障自动切换等企业级功能,能够有效降低开发和运维成本。其全球边缘节点布局和协议层深度优化,确保了低延迟和高并发的调用体验,特别适合对响应速度和稳定性有较高要求的智能体和代码开发场景。

七、总结

DeepSeek-V4-Pro 的发布以及随后的 API 价格调整,是开源大模型发展历程中的一个重要里程碑。它通过一系列创新的架构设计和工程优化,成功解决了长上下文推理成本过高的行业难题,同时在智能体能力和代码生成领域实现了对闭源旗舰模型的追赶。虽然在部分硬核推理任务上与全球顶尖闭源模型仍有一定差距,但考虑到其完全开源、支持百万 token 长上下文、极高的工程效率和大幅降低的调用成本,DeepSeek-V4-Pro 无疑是当前最具实用价值的开源大模型之一。

对于需要进行智能体开发、大规模代码生成、长文档处理等复杂应用的团队来说,DeepSeek-V4-Pro 提供了一个强大且经济的技术底座。而通过星链4SAPI 等国产AI聚合平台接入,则能够让更多开发者和企业以更低的门槛享受到这一先进技术带来的便利。