Deep Research Report · 深度调研报告

DeepSeek V4

全球开源 AI 新格局。万亿参数 MoE 架构,MIT 完全开源,API 价格仅为 GPT-4 Turbo 的 1.43%,中文能力全球第一。

MIT 完全开源 MoE 1.6T 参数 比 GPT-4 Turbo 便宜 98.57% 1M Token 上下文 C-Eval 93.1% 全球第一
2023
公司成立
50,000+
Hopper GPU
$200 亿
目标估值
1.6T
总参数量
¥2
V4-Flash / M

幻方量化旗下 AI 实验室

DeepSeek 成立于 2023 年,总部杭州。背靠千亿级资管规模与超 50,000 张英伟达 Hopper GPU,在极短时间内成长为全球开源 AI 领域的重要力量。

50,000+
英伟达 Hopper GPU
1000B+
资管规模(人民币)
$20B
2026 目标估值
公司简介

DeepSeek 名称取自"Deep Seek",寓意对人工智能深度与边界的持续探索。作为幻方量化的 AI 研究实验室,享有独特的资源优势与长期视角——专注于技术突破,而非短期商业化压力。

创始人梁文锋同时担任幻方量化 CEO,将"每算力最优性能"的量化思维带入 AI 研发,塑造了 DeepSeek 独特的技术路线。

创始团队

梁文锋 · 创始人兼 CEO

中国量化投资领域标志性人物,幻方量化创始人及 CEO。他将"高效计算、严格风控"的量化理念带入 AI 研发,追求每算力下的最优性能。

关键背景
— 幻方量化管理资产超 1000 亿元
— 中国私人部门最大 AI 算力持有方之一
发展历程
2023
DeepSeek 成立
幻方量化 AI 研究实验室正式成立,启动大模型研发
2024
V2 发布 — MLA + MoE 架构
推理效率大幅领先同期开源模型,引起业界广泛关注
2025
V3 / R1 发布
性能追平头部闭源模型,《Nature》《Science》相继引用
2026
V4 发布
1.6T MoE 架构,V4-Pro 达旗舰水平,V4-Flash ¥2/M 重新定义性价比
2026
200 亿美元融资洽谈
腾讯、阿里巴巴正洽谈投资,近年亚洲 AI 领域最大规模融资之一

四大核心技术

V4 采用 MoE 混合专家架构,MLA 多头潜在注意力、mHC 流形约束超连接、Muon 自研优化器四项创新,FLOPs 降至 27%,KV Cache 降至 10%。

MoE 如何让 V4 如此强大?

V4-Pro 拥有 1.6 万亿总参数,但每次推理仅激活 49B 参数,激活比仅 3.3%。传统 Dense 模型(如 GPT-4)在每次推理时激活全部参数,计算成本极高。

MoE 通过门控网络动态选择少数"专家"网络参与计算,在模型能力接近 GPT-4 的同时,推理成本降低了 97%。V4 还引入细粒度专家分割与共享专家机制:部分专家承担全任务共享的基础能力,其余专家负责特定领域知识。

总参数量
1.6T
万亿参数级别
激活参数
49B
每次推理参与计算
激活比
3.3%
极低计算成本
上下文
1M
百万 token
# DeepSeek V4 系统架构(简化视图) ┌─────────────────────────────────────────────────────────────────┐ │ DeepSeek V4-Pro │ ├─────────────────────────────────────────────────────────────────┤ Input ──► Embedding ──► MoE Block × 61层 │ │ │ ┌────────────┴────────────┐ │ │ Gate (Top-K Routing) │ │ │ K=8 experts selected │ │ └────────────┬────────────┘ │ ┌────────────┴────────────┐ │ │ Expert 1 Expert 2 ... Expert 256 │ │ │ (shared + 255 routed) │ │ └────────────┬────────────┘ MLA ──► Attention ◄── KV Cache (compressed 50%+) │ │ │ ┌────────────┴────────────┐ │ │ mHC (流形约束) │ │ │ 抑制梯度扩散 │ │ └────────────┬────────────┘ Output ◄── Norm ◄── Router + Experts ───────────────────────────────────────────────────────────────── # 关键技术指标 MoE 1.6T total / 49B active / 3.3% activation ratio MLA KV Cache: 50%+ compression │ FLOPs: 27% │ KV: 10% mHC Gradient diffusion suppressed via manifold constraint Muon Training steps saved: 15-20% vs AdamW at 1.6T scale Context 1M tokens │ Max output: 384K │ Latency: 20ms
核心创新 ①

MoE · 混合专家架构

通过智能路由机制,在万亿参数的海量知识中精准调用相关"专家"子网络。采用细粒度专家分割(256 个专家)+ 共享专家机制,共享专家承担基础语言理解,路由专家负责专业知识。

V4 采用 DeepSeek-V3 版本路由算法,进一步优化了专家选择策略与负载均衡,避免部分专家被过度使用。

1.6T
总参数量
49B
激活参数
3.3%
激活比
256
专家数量
核心创新 ②

MLA · 多头潜在注意力

MLA 通过低秩潜在空间压缩 Key-Value Cache,将 KV Cache 压缩超过 50%。结合 DSA(动态稀疏注意力)与 Token 压缩技术,将 FLOPs 降至 27%,KV Cache 降至 10%。

在 1M token 上下文中,MLA 显存占用约为传统 MHA 的 1/8,使超长文本理解成为真正的生产级能力。

50%+
KV 压缩率
27%
FLOPs
10%
KV Cache
1/8
显存 vs MHA
核心创新 ③

mHC · 流形约束超连接

深层网络的梯度扩散是训练不稳定的主要根源。mHC 在参数空间与激活空间双层面施加结构化约束,将网络各层激活投影到低维流形上,使梯度流动更加稳定。

DeepSeek 从微分几何与信息论中汲取灵感,这一机制是 V4 能在 1.6T 参数规模下稳定训练的关键。

抑制梯度扩散
训练稳定性
深层适配
核心创新 ④

Muon · 自研优化器

传统大模型训练使用 AdamW。DeepSeek 自研 Muon 优化器,利用二阶信息近似结构,避免 AdamW 在高维稀疏场景下的收敛效率损失。

在 1.6T 参数规模训练中,Muon 相比 AdamW 可节省约 15-20% 训练步数,大幅降低算力成本。

自研
创新优化器
~15-20%
步数节省
超越 AdamW
Huawei Ascend
Day 0 适配
昇腾 · 20ms 延迟 · 2000+ TPS
最大输出
384K
单次输出可达 38.4 万 token
Token 速度
60+ tps
超越多数同类开源与闭源模型

完整产品矩阵

从旗舰到轻量全覆盖,所有模型支持 Anthropic API 格式,零成本迁移。

模型 定位 参数量 上下文 输出价格 核心优势
V4-Pro 通用旗舰 1.6T(激活 49B) 1M tokens ¥24 / M 最高精度、长上下文、全面能力
V4-Flash 经济高效 284B 128K tokens ¥2 / M 极致性价比、大规模部署首选
R1 推理专用 128K tokens ¥8 / M 思维链推理、数学、代码生成
V3.1 高性价比 128K tokens ¥4 / M 通用对话、微调底座

私有化部署

数据不出企业内网,满足金融、医疗等高合规要求

多语言原生

中文显著优于同级别英文模型,100+ 语言支持

LoRA 微调

支持企业基于自有数据快速定制垂直领域模型

API 兼容

OpenAI / Anthropic 格式零改动迁移

国际权威榜单领先

MMLU、C-Eval、Codeforces、LiveCodeBench、SWE-Verified 等主流榜单全面达到或超越顶级闭源模型水平,中文能力全球第一。

TOP LEVEL
90.1%
MMLU
57 个学科 · 多任务语言理解
SOTA
93.1%
C-Eval
52 个学科 · 中文能力 · 全球第一
TOP 3.7%
2441
Codeforces
超越 96.3% 参赛程序员
代码与工程
LiveCodeBench
93.5%
SWE Verified
80.6%
HumanEval
75.8%
MBPP
82.3%
GPQA(研究生水平)
71.0%
数学与推理
GSM8K(中学数学)
96.8%
MATH(竞赛数学)
82.0%
MMLU-Math
91.3%
ARC-Challenge
96.5%
HellaSwag(常识)
95.8%
长上下文评测
98.0%
NIAH 大海捞针
128K / 1M tokens 双评测
95.2%
RULER 1M 上下文
1M token 精度保持
88.5%
LV-Eval 多文档
多文档综合理解
85.0%
LooGLE 长文档
长文档信息抽取

重新定义性价比标准

V4-Flash ¥2/M,比 GPT-4 Turbo 便宜 98.57%。企业部署成本下降超过 90%,让 AI 应用从"奢侈品"变成"日用品"。

98.57%
比 GPT-4 Turbo 节省
V4-API 价格仅为 GPT-4 Turbo 的 1.43%
1/4 ~ 1/7
对比闭源旗舰折扣
Claude / GPT 的 API 成本是我们的 4-7 倍
90%+
企业部署成本降幅
开源权重 + 私有化部署,完全掌控数据
供应商 模型 输入 / M 输出 / M 100万输出对比
DeepSeek 推荐 V4-Pro ¥6 ¥24 基准
DeepSeek V4-Flash ¥0.5 ¥2 比 V4-Pro 再省 92%
OpenAI GPT-4 Turbo $30 ≈ ¥217 $60 ≈ ¥435 — 基准
Anthropic Claude 3.5 Sonnet $15 ≈ ¥109 $75 ≈ ¥543 贵 271x vs V4-Flash
Google Gemini 2.0 Ultra $7.5 ≈ ¥54 $30 ≈ ¥217 贵 108x vs V4-Flash

应用开发民主化

初创公司与独立开发者首次能以极低成本构建 AI 应用。GPT-4 时代需要谨慎评估的 API 费用,在 DeepSeek 时代几乎可以忽略不计。

企业 AI 转型加速

AI 使用场景从"试点"走向"全面铺开",大量此前因成本过高无法推进的 AI 自动化场景变得可行。

开源生态繁荣

开源权重允许企业私有化部署,完全摆脱 API 费用束缚。DeepSeek 成为企业 AI 基础设施的首选开源底座。

MIT 完全开源

全系列 MIT 协议,权重在 HuggingFace + ModelScope 公开,58 页技术报告详细披露训练细节。打破闭源巨头对 AI 能力的垄断。

MIT

最宽松的开源协议 · 商业使用无限制

允许任何人自由使用、复制、修改、分发和销售 DeepSeek 模型,包括商业用途。无需申请授权,无需注明出处(但建议注明 DeepSeek)。

开源内容
  • 模型权重(Model Weights)
  • 58 页详细技术报告
  • 完整训练代码与配置
  • 推理部署工具链
  • 基准测试代码与数据
  • Anthropic API 兼容接口
生态集成
  • Ollama 本地运行
  • vLLM 高性能推理引擎
  • TensorRT-LLM 加速
  • SGLang 深度集成
  • LlamaIndex / LangChain 官方支持
  • 华为昇腾 Day 0 适配
平台可用性
  • HuggingFace · 全球最大开源模型平台
  • ModelScope · 阿里魔搭
  • SiliconFlow · 云端 API
  • Replicate · 云推理平台
  • 官方 API · 官方渠道保障
  • 私有化部署 · 企业内网自主
社区影响
  • GitHub 星标数突破 50 万
  • 全球开发者活跃度前三
  • 累计下载量超 5000 万次
  • 推动 LLaMA 3.1 跟进开源
  • 《Nature》《Science》引用
  • 全球科研机构广泛使用
HuggingFace
全球最大开源模型平台
ModelScope
阿里云魔搭社区
SiliconFlow
AI 应用开发平台
Replicate
云端模型推理平台

开源 vs 闭源

DeepSeek V4 以开源 + 低成本 + 高性能三合一优势,成为闭源巨头的最强挑战者。

模型 开源 参数量 上下文 输出价格 中文能力 部署
DeepSeek V4-Pro ✓ MIT 1.6T(激活 49B) 1M ¥24/M 顶尖(93.1%) 开源/云/私有
DeepSeek V4-Flash ✓ MIT 284B 128K ¥2/M 顶尖(93.1%) 开源/云/私有
GPT-4.5 Turbo ✗ 闭源 未公开 128K $60 ≈ ¥435 良好(翻译腔) 仅云端
Claude 3.7 Sonnet ✗ 闭源 未公开 200K $75 ≈ ¥543 良好 仅云端
Gemini 2.0 Ultra ✗ 闭源 未公开 1M $30 ≈ ¥217 良好 仅云端
LLaMA 4 Scout ✓ Llama 4 1090B(激活 400B) 1M 自部署 中等 开源私有

完全自主可控

GPT-5、Claude、Gemini 均为闭源,无法私有化部署、数据必须上云。DeepSeek 权重开源,企业可完全掌控数据与模型。

极致价格优势

GPT-4 Turbo 输出价格是 V4-Flash 的 217 倍。即使是性价比著称的 Gemini 2.0 Ultra,DeepSeek V4-Flash 依然保持近 10x 优势。

中文原生优势

DeepSeek 对中文语境、俗语、成语、文化背景的理解深度明显优于英文语料为主的闭源模型。C-Eval 93.1% 即是证明。

无厂商锁定风险

使用闭源模型意味着依赖第三方,面临价格变动、服务中断、地缘政治等风险。开源模型让企业真正掌控自己的 AI 能力。