DeepSeek 旗舰模型 V4 Pro/Flash 发布,1.6T 参数,百万上下文,开源!
约中午 12 点左右发布 DeepSeek-V4 模型,分为预览版 Preview、旗舰版 Pro 和快速版 Flash。
- DeepSeek-V4 Preview: 开放预览版,支持 100 万高效上下文。
- DeepSeek-V4-Pro: 1.6T 总参数,激活参数 49B,性能仅次于当前世界顶尖闭源模型 (Google Gemini 3.1)。
- DeepSeek-V4-Flash: 284B 总参数,激活参数 13B。快速、高效,性价比首选。

DeepSeek-V4-Pro

- 增强的智能体能力:在智能体编程基准测试中达到开源领域最优水平。
- 丰富的世界知识:领先当前所有开源模型,仅次于 Gemini-3.1-Pro。
- 世界级推理能力:在数学/STEM/编程领域超越当前所有开源模型,可与顶级闭源模型相媲美。
DeepSeek-V4-Flash

- 推理能力十分接近 V4-Pro。
- 在简单智能体任务上的表现与 V4-Pro 不相上下。
- 参数量更小、响应速度更快,API 定价极具
性价比。
创新点
结构创新与超高效长上下文

- 采用新型注意力机制:逐 Token 压缩 + DSA(DeepSeek 稀疏注意力)。
- 极致效率:在长上下文处理上达到世界领先水平,大幅降低计算与内存成本。
- 百万级上下文标配:100 万 Token 上下文现已成为所有 DeepSeek 官方服务的默认配置。
智能体能力专项优化
- DeepSeek-V4 支持与 Claude Code、OpenClaw 及 OpenCode 等领先的 AI 智能体无缝集成。
- 已驱动 DeepSeek 内部的智能体编程工作。
API

API 即日可用!
- 保留原有 base_url,只需将模型更新为 deepseek-v4-pro 或 deepseek-v4-flash。
- 支持 OpenAI ChatCompletions 与 Anthropic API 接口。
- 两款模型均支持 100 万 Token 上下文及双模式(思考/非思考模式):https://api-docs.deepseek.com/guides/thinking_mode
注意:deepseek-chat 与 deepseek-reasoner 将于 2026 年 7 月 24 日 15:59(UTC 时间)全面退役,此后将无法访问。(当前已路由至 deepseek-v4-flash 的非思考/思考模式。)
技术细节
架构
- V4 模型延续 V3 模型的 Transformer 架构和多 Token 预测 (MTP) 模块
- 采用流形约束超连接 (mHC:Manifold-Constrained Hyper-Connections) 加强常规残差连接
- 采用混合注意力架构,压缩稀疏注意力+深度压缩注意力,改进长上下文效率 采用混合注意力机制,
基础设施
- 专家并行中的细粒度通信-计算重叠:在专家并行(Expert Parallelism)中实现细粒度的通信与计算重叠,有效隐藏通信延迟,提升分布式训练/推理效率。
- 使用 TileLang 进行 GPU 内核开发
- 对于长上下文注意力,采用注意力并行提高效率
总结
DeepSeek-V4 模型取得了与领先闭源模型相当的推理性能,核心突破是长上下文,原生支持百万级 Token 上下文,为未来的测试时扩展、长时域任务(agent 能力)以及在线学习等新兴范式奠定了必要基础。