DeepSeek 旗舰模型 V4 Pro/Flash 发布,1.6T 参数,百万上下文,开源!
约中午 12 点左右发布 DeepSeek-V4 模型,分为预览版 Preview、旗舰版 Pro 和快速版 Flash。 DeepSeek-V4 Preview: 开放预览版,支持 100 万高效上下文。 DeepSeek-V4-Pro: 1.6T 总参数,激活参数 49

Llama 4 Scout和Llama 4 Maverick两款原生多模态大模型但拥有 128 位专家。它在广泛的基准测试中超越了 GPT-4o 和 Gemini 2.0 Flash,并且在推理能力和编程等任务上与 DeepSeek v3 相比仅需不到一半的活跃参数就能达到相似的表现2025 年 2 月 24 号-2 月 28 号,DeepSeek 开源了大模型领域的多个关键软件,推动 AGI 向前发展。
你以为这就结束了?今天 (3 月 1 号) DeepSeek 又给出了一份汇总性的内容,总结自己利用这些关键技术,构建自己的推理系统的。
先说结论:
基本上压榨全部的 GPU 资源了。

在浏览 DeepSeek 官网 API 文档 时,笔者发现了非常有用的资源,那就是 DeepSeek 官方出品的 提示词库 :

大陆时间 2024 年 11 月 12 日凌晨 3 点左右,阿里千问团队发布 Qwen2.5-Coder 系列模型
