DeepSeek 旗舰模型 V4 Pro/Flash 发布,1.6T 参数,百万上下文,开源!

约中午 12 点左右发布 DeepSeek-V4 模型,分为预览版 Preview、旗舰版 Pro 和快速版 Flash。

  • DeepSeek-V4 Preview: 开放预览版,支持 100 万高效上下文。
  • DeepSeek-V4-Pro: 1.6T 总参数,激活参数 49B,性能仅次于当前世界顶尖闭源模型 (Google Gemini 3.1)。
  • DeepSeek-V4-Flash: 284B 总参数,激活参数 13B。快速、高效,性价比首选。

DeepSeek-V4-Pro

  1. 增强的智能体能力:在智能体编程基准测试中达到开源领域最优水平。
  2. 丰富的世界知识:领先当前所有开源模型,仅次于 Gemini-3.1-Pro。
  3. 世界级推理能力:在数学/STEM/编程领域超越当前所有开源模型,可与顶级闭源模型相媲美。

DeepSeek-V4-Flash

  1. 推理能力十分接近 V4-Pro。
  2. 在简单智能体任务上的表现与 V4-Pro 不相上下。
  3. 参数量更小、响应速度更快,API 定价极具性价比

创新点

结构创新超高效长上下文

  1. 采用新型注意力机制:逐 Token 压缩 + DSA(DeepSeek 稀疏注意力)。
  2. 极致效率:在长上下文处理上达到世界领先水平,大幅降低计算与内存成本。
  3. 百万级上下文标配:100 万 Token 上下文现已成为所有 DeepSeek 官方服务的默认配置。

智能体能力专项优化

  1. DeepSeek-V4 支持与 Claude Code、OpenClaw 及 OpenCode 等领先的 AI 智能体无缝集成。
  2. 已驱动 DeepSeek 内部的智能体编程工作

API

API 即日可用!

  1. 保留原有 base_url,只需将模型更新为 deepseek-v4-pro 或 deepseek-v4-flash。
  2. 支持 OpenAI ChatCompletions 与 Anthropic API 接口。
  3. 两款模型均支持 100 万 Token 上下文及双模式(思考/非思考模式):https://api-docs.deepseek.com/guides/thinking_mode

注意:deepseek-chat 与 deepseek-reasoner 将于 2026 年 7 月 24 日 15:59(UTC 时间)全面退役,此后将无法访问。(当前已路由至 deepseek-v4-flash 的非思考/思考模式。)

技术细节

架构

  1. V4 模型延续 V3 模型的 Transformer 架构和多 Token 预测 (MTP) 模块
  2. 采用流形约束超连接 (mHC:Manifold-Constrained Hyper-Connections) 加强常规残差连接
  3. 采用混合注意力架构,压缩稀疏注意力+深度压缩注意力,改进长上下文效率 采用混合注意力机制,

基础设施

  1. 专家并行中的细粒度通信-计算重叠:在专家并行(Expert Parallelism)中实现细粒度的通信与计算重叠,有效隐藏通信延迟,提升分布式训练/推理效率。
  2. 使用 TileLang 进行 GPU 内核开发
  3. 对于长上下文注意力,采用注意力并行提高效率

总结

DeepSeek-V4 模型取得了与领先闭源模型相当的推理性能,核心突破是长上下文,原生支持百万级 Token 上下文,为未来的测试时扩展、长时域任务(agent 能力)以及在线学习等新兴范式奠定了必要基础。

参考