0%

DeepSeek 旗舰模型 V4 Pro/Flash 发布，1.6T 参数，百万上下文，开源！

发表于： 2026-04-24 分类于：编程

字数： 969 阅读：≈ 2分钟评论：

约中午 12 点左右发布 DeepSeek-V4 模型，分为预览版 Preview、旗舰版 Pro 和快速版 Flash。

DeepSeek-V4 Preview: 开放预览版，支持 100 万高效上下文。
DeepSeek-V4-Pro: 1.6T 总参数，激活参数 49B，性能仅次于当前世界顶尖闭源模型 (Google Gemini 3.1)。
DeepSeek-V4-Flash: 284B 总参数，激活参数 13B。快速、高效，性价比首选。

DeepSeek-V4-Pro

增强的智能体能力：在智能体编程基准测试中达到开源领域最优水平。
丰富的世界知识：领先当前所有开源模型，仅次于 Gemini-3.1-Pro。
世界级推理能力：在数学/STEM/编程领域超越当前所有开源模型，可与顶级闭源模型相媲美。

DeepSeek-V4-Flash

推理能力十分接近 V4-Pro。
在简单智能体任务上的表现与 V4-Pro 不相上下。
参数量更小、响应速度更快，API 定价极具性价比。

创新点

结构创新与超高效长上下文

采用新型注意力机制：逐 Token 压缩 + DSA（DeepSeek 稀疏注意力）。
极致效率：在长上下文处理上达到世界领先水平，大幅降低计算与内存成本。
百万级上下文标配：100 万 Token 上下文现已成为所有 DeepSeek 官方服务的默认配置。

智能体能力专项优化

DeepSeek-V4 支持与 Claude Code、OpenClaw 及 OpenCode 等领先的 AI 智能体无缝集成。
已驱动 DeepSeek 内部的智能体编程工作。

API

API 即日可用！

保留原有 base_url，只需将模型更新为 deepseek-v4-pro 或 deepseek-v4-flash。
支持 OpenAI ChatCompletions 与 Anthropic API 接口。
两款模型均支持 100 万 Token 上下文及双模式（思考/非思考模式）：https://api-docs.deepseek.com/guides/thinking_mode

注意：deepseek-chat 与 deepseek-reasoner 将于 2026 年 7 月 24 日 15:59（UTC 时间）全面退役，此后将无法访问。（当前已路由至 deepseek-v4-flash 的非思考/思考模式。）

技术细节

架构

V4 模型延续 V3 模型的 Transformer 架构和多 Token 预测 (MTP) 模块
采用流形约束超连接 (mHC:Manifold-Constrained Hyper-Connections) 加强常规残差连接
采用混合注意力架构，压缩稀疏注意力+深度压缩注意力，改进长上下文效率采用混合注意力机制，

基础设施

专家并行中的细粒度通信-计算重叠：在专家并行（Expert Parallelism）中实现细粒度的通信与计算重叠，有效隐藏通信延迟，提升分布式训练/推理效率。
使用 TileLang 进行 GPU 内核开发
对于长上下文注意力，采用注意力并行提高效率

总结

DeepSeek-V4 模型取得了与领先闭源模型相当的推理性能，核心突破是长上下文，原生支持百万级 Token 上下文，为未来的测试时扩展、长时域任务(agent 能力）以及在线学习等新兴范式奠定了必要基础。

参考

评论交流