全球开源 AI 新格局。万亿参数 MoE 架构,MIT 完全开源,API 价格仅为 GPT-4 Turbo 的 1.43%,中文能力全球第一。
DeepSeek 成立于 2023 年,总部杭州。背靠千亿级资管规模与超 50,000 张英伟达 Hopper GPU,在极短时间内成长为全球开源 AI 领域的重要力量。
DeepSeek 名称取自"Deep Seek",寓意对人工智能深度与边界的持续探索。作为幻方量化的 AI 研究实验室,享有独特的资源优势与长期视角——专注于技术突破,而非短期商业化压力。
创始人梁文锋同时担任幻方量化 CEO,将"每算力最优性能"的量化思维带入 AI 研发,塑造了 DeepSeek 独特的技术路线。
中国量化投资领域标志性人物,幻方量化创始人及 CEO。他将"高效计算、严格风控"的量化理念带入 AI 研发,追求每算力下的最优性能。
V4 采用 MoE 混合专家架构,MLA 多头潜在注意力、mHC 流形约束超连接、Muon 自研优化器四项创新,FLOPs 降至 27%,KV Cache 降至 10%。
V4-Pro 拥有 1.6 万亿总参数,但每次推理仅激活 49B 参数,激活比仅 3.3%。传统 Dense 模型(如 GPT-4)在每次推理时激活全部参数,计算成本极高。
MoE 通过门控网络动态选择少数"专家"网络参与计算,在模型能力接近 GPT-4 的同时,推理成本降低了 97%。V4 还引入细粒度专家分割与共享专家机制:部分专家承担全任务共享的基础能力,其余专家负责特定领域知识。
通过智能路由机制,在万亿参数的海量知识中精准调用相关"专家"子网络。采用细粒度专家分割(256 个专家)+ 共享专家机制,共享专家承担基础语言理解,路由专家负责专业知识。
V4 采用 DeepSeek-V3 版本路由算法,进一步优化了专家选择策略与负载均衡,避免部分专家被过度使用。
MLA 通过低秩潜在空间压缩 Key-Value Cache,将 KV Cache 压缩超过 50%。结合 DSA(动态稀疏注意力)与 Token 压缩技术,将 FLOPs 降至 27%,KV Cache 降至 10%。
在 1M token 上下文中,MLA 显存占用约为传统 MHA 的 1/8,使超长文本理解成为真正的生产级能力。
深层网络的梯度扩散是训练不稳定的主要根源。mHC 在参数空间与激活空间双层面施加结构化约束,将网络各层激活投影到低维流形上,使梯度流动更加稳定。
DeepSeek 从微分几何与信息论中汲取灵感,这一机制是 V4 能在 1.6T 参数规模下稳定训练的关键。
传统大模型训练使用 AdamW。DeepSeek 自研 Muon 优化器,利用二阶信息近似结构,避免 AdamW 在高维稀疏场景下的收敛效率损失。
在 1.6T 参数规模训练中,Muon 相比 AdamW 可节省约 15-20% 训练步数,大幅降低算力成本。
从旗舰到轻量全覆盖,所有模型支持 Anthropic API 格式,零成本迁移。
| 模型 | 定位 | 参数量 | 上下文 | 输出价格 | 核心优势 |
|---|---|---|---|---|---|
| V4-Pro | 通用旗舰 | 1.6T(激活 49B) | 1M tokens | ¥24 / M | 最高精度、长上下文、全面能力 |
| V4-Flash | 经济高效 | 284B | 128K tokens | ¥2 / M | 极致性价比、大规模部署首选 |
| R1 | 推理专用 | — | 128K tokens | ¥8 / M | 思维链推理、数学、代码生成 |
| V3.1 | 高性价比 | — | 128K tokens | ¥4 / M | 通用对话、微调底座 |
数据不出企业内网,满足金融、医疗等高合规要求
中文显著优于同级别英文模型,100+ 语言支持
支持企业基于自有数据快速定制垂直领域模型
OpenAI / Anthropic 格式零改动迁移
MMLU、C-Eval、Codeforces、LiveCodeBench、SWE-Verified 等主流榜单全面达到或超越顶级闭源模型水平,中文能力全球第一。
V4-Flash ¥2/M,比 GPT-4 Turbo 便宜 98.57%。企业部署成本下降超过 90%,让 AI 应用从"奢侈品"变成"日用品"。
| 供应商 | 模型 | 输入 / M | 输出 / M | 100万输出对比 |
|---|---|---|---|---|
| DeepSeek 推荐 | V4-Pro | ¥6 | ¥24 | 基准 |
| DeepSeek | V4-Flash | ¥0.5 | ¥2 | 比 V4-Pro 再省 92% |
| OpenAI | GPT-4 Turbo | $30 ≈ ¥217 | $60 ≈ ¥435 | — 基准 |
| Anthropic | Claude 3.5 Sonnet | $15 ≈ ¥109 | $75 ≈ ¥543 | 贵 271x vs V4-Flash |
| Gemini 2.0 Ultra | $7.5 ≈ ¥54 | $30 ≈ ¥217 | 贵 108x vs V4-Flash |
初创公司与独立开发者首次能以极低成本构建 AI 应用。GPT-4 时代需要谨慎评估的 API 费用,在 DeepSeek 时代几乎可以忽略不计。
AI 使用场景从"试点"走向"全面铺开",大量此前因成本过高无法推进的 AI 自动化场景变得可行。
开源权重允许企业私有化部署,完全摆脱 API 费用束缚。DeepSeek 成为企业 AI 基础设施的首选开源底座。
全系列 MIT 协议,权重在 HuggingFace + ModelScope 公开,58 页技术报告详细披露训练细节。打破闭源巨头对 AI 能力的垄断。
允许任何人自由使用、复制、修改、分发和销售 DeepSeek 模型,包括商业用途。无需申请授权,无需注明出处(但建议注明 DeepSeek)。
DeepSeek V4 以开源 + 低成本 + 高性能三合一优势,成为闭源巨头的最强挑战者。
| 模型 | 开源 | 参数量 | 上下文 | 输出价格 | 中文能力 | 部署 |
|---|---|---|---|---|---|---|
| DeepSeek V4-Pro | ✓ MIT | 1.6T(激活 49B) | 1M | ¥24/M | 顶尖(93.1%) | 开源/云/私有 |
| DeepSeek V4-Flash | ✓ MIT | 284B | 128K | ¥2/M | 顶尖(93.1%) | 开源/云/私有 |
| GPT-4.5 Turbo | ✗ 闭源 | 未公开 | 128K | $60 ≈ ¥435 | 良好(翻译腔) | 仅云端 |
| Claude 3.7 Sonnet | ✗ 闭源 | 未公开 | 200K | $75 ≈ ¥543 | 良好 | 仅云端 |
| Gemini 2.0 Ultra | ✗ 闭源 | 未公开 | 1M | $30 ≈ ¥217 | 良好 | 仅云端 |
| LLaMA 4 Scout | ✓ Llama 4 | 1090B(激活 400B) | 1M | 自部署 | 中等 | 开源私有 |
GPT-5、Claude、Gemini 均为闭源,无法私有化部署、数据必须上云。DeepSeek 权重开源,企业可完全掌控数据与模型。
GPT-4 Turbo 输出价格是 V4-Flash 的 217 倍。即使是性价比著称的 Gemini 2.0 Ultra,DeepSeek V4-Flash 依然保持近 10x 优势。
DeepSeek 对中文语境、俗语、成语、文化背景的理解深度明显优于英文语料为主的闭源模型。C-Eval 93.1% 即是证明。
使用闭源模型意味着依赖第三方,面临价格变动、服务中断、地缘政治等风险。开源模型让企业真正掌控自己的 AI 能力。