DeepSeek V4 深度调研报告

01 · 公司背景

幻方量化旗下 AI 实验室

DeepSeek 成立于 2023 年，总部杭州。背靠千亿级资管规模与超 50,000 张英伟达 Hopper GPU，在极短时间内成长为全球开源 AI 领域的重要力量。

50,000+

英伟达 Hopper GPU

1000B+

资管规模（人民币）

$20B

2026 目标估值

公司简介

DeepSeek 名称取自"Deep Seek"，寓意对人工智能深度与边界的持续探索。作为幻方量化的 AI 研究实验室，享有独特的资源优势与长期视角——专注于技术突破，而非短期商业化压力。

创始人梁文锋同时担任幻方量化 CEO，将"每算力最优性能"的量化思维带入 AI 研发，塑造了 DeepSeek 独特的技术路线。

创始团队

梁文锋 · 创始人兼 CEO

中国量化投资领域标志性人物，幻方量化创始人及 CEO。他将"高效计算、严格风控"的量化理念带入 AI 研发，追求每算力下的最优性能。

关键背景

— 幻方量化管理资产超 1000 亿元

— 中国私人部门最大 AI 算力持有方之一

发展历程

2023

DeepSeek 成立

幻方量化 AI 研究实验室正式成立，启动大模型研发

2024

V2 发布 — MLA + MoE 架构

推理效率大幅领先同期开源模型，引起业界广泛关注

2025

V3 / R1 发布

性能追平头部闭源模型，《Nature》《Science》相继引用

2026

V4 发布

1.6T MoE 架构，V4-Pro 达旗舰水平，V4-Flash ¥2/M 重新定义性价比

2026

200 亿美元融资洽谈

腾讯、阿里巴巴正洽谈投资，近年亚洲 AI 领域最大规模融资之一

02 · 技术架构

四大核心技术

V4 采用 MoE 混合专家架构，MLA 多头潜在注意力、mHC 流形约束超连接、Muon 自研优化器四项创新，FLOPs 降至 27%，KV Cache 降至 10%。

MoE 如何让 V4 如此强大？

V4-Pro 拥有 1.6 万亿总参数，但每次推理仅激活 49B 参数，激活比仅 3.3%。传统 Dense 模型（如 GPT-4）在每次推理时激活全部参数，计算成本极高。

MoE 通过门控网络动态选择少数"专家"网络参与计算，在模型能力接近 GPT-4 的同时，推理成本降低了 97%。V4 还引入细粒度专家分割与共享专家机制：部分专家承担全任务共享的基础能力，其余专家负责特定领域知识。

总参数量

1.6T

万亿参数级别

激活参数

49B

每次推理参与计算

激活比

3.3%

极低计算成本

上下文

百万 token

# DeepSeek V4 系统架构（简化视图） ┌─────────────────────────────────────────────────────────────────┐ │ DeepSeek V4-Pro │ ├─────────────────────────────────────────────────────────────────┤ Input ──► Embedding ──► MoE Block × 61层 │ │ │ ┌────────────┴────────────┐ │ │ Gate (Top-K Routing) │ │ │ K=8 experts selected │ │ └────────────┬────────────┘ │ ┌────────────┴────────────┐ │ │ Expert 1 Expert 2 ... Expert 256 │ │ │ (shared + 255 routed) │ │ └────────────┬────────────┘ MLA ──► Attention ◄── KV Cache (compressed 50%+) │ │ │ ┌────────────┴────────────┐ │ │ mHC (流形约束) │ │ │ 抑制梯度扩散 │ │ └────────────┬────────────┘ Output ◄── Norm ◄── Router + Experts ───────────────────────────────────────────────────────────────── # 关键技术指标 MoE 1.6T total / 49B active / 3.3% activation ratio MLA KV Cache: 50%+ compression │ FLOPs: 27% │ KV: 10% mHC Gradient diffusion suppressed via manifold constraint Muon Training steps saved: 15-20% vs AdamW at 1.6T scale Context 1M tokens │ Max output: 384K │ Latency: 20ms

核心创新 ①

MoE · 混合专家架构

通过智能路由机制，在万亿参数的海量知识中精准调用相关"专家"子网络。采用细粒度专家分割（256 个专家）+ 共享专家机制，共享专家承担基础语言理解，路由专家负责专业知识。

V4 采用 DeepSeek-V3 版本路由算法，进一步优化了专家选择策略与负载均衡，避免部分专家被过度使用。

1.6T

总参数量

49B

激活参数

3.3%

激活比

256

专家数量

核心创新 ②

MLA · 多头潜在注意力

MLA 通过低秩潜在空间压缩 Key-Value Cache，将 KV Cache 压缩超过 50%。结合 DSA（动态稀疏注意力）与 Token 压缩技术，将 FLOPs 降至 27%，KV Cache 降至 10%。

在 1M token 上下文中，MLA 显存占用约为传统 MHA 的 1/8，使超长文本理解成为真正的生产级能力。

50%+

KV 压缩率

27%

FLOPs

10%

KV Cache

1/8

显存 vs MHA

核心创新 ③

mHC · 流形约束超连接

深层网络的梯度扩散是训练不稳定的主要根源。mHC 在参数空间与激活空间双层面施加结构化约束，将网络各层激活投影到低维流形上，使梯度流动更加稳定。

DeepSeek 从微分几何与信息论中汲取灵感，这一机制是 V4 能在 1.6T 参数规模下稳定训练的关键。

✓

抑制梯度扩散

✓

训练稳定性

✓

深层适配

核心创新 ④

Muon · 自研优化器

传统大模型训练使用 AdamW。DeepSeek 自研 Muon 优化器，利用二阶信息近似结构，避免 AdamW 在高维稀疏场景下的收敛效率损失。

在 1.6T 参数规模训练中，Muon 相比 AdamW 可节省约 15-20% 训练步数，大幅降低算力成本。

自研

创新优化器

~15-20%

步数节省

✓

超越 AdamW

Huawei Ascend

Day 0 适配

昇腾 · 20ms 延迟 · 2000+ TPS

最大输出

384K

单次输出可达 38.4 万 token

Token 速度

60+ tps

超越多数同类开源与闭源模型

03 · 产品矩阵

完整产品矩阵

从旗舰到轻量全覆盖，所有模型支持 Anthropic API 格式，零成本迁移。

模型	定位	参数量	上下文	输出价格	核心优势
V4-Pro	通用旗舰	1.6T（激活 49B）	1M tokens	¥24 / M	最高精度、长上下文、全面能力
V4-Flash	经济高效	284B	128K tokens	¥2 / M	极致性价比、大规模部署首选
R1	推理专用	—	128K tokens	¥8 / M	思维链推理、数学、代码生成
V3.1	高性价比	—	128K tokens	¥4 / M	通用对话、微调底座

—

私有化部署

数据不出企业内网，满足金融、医疗等高合规要求

—

多语言原生

中文显著优于同级别英文模型，100+ 语言支持

—

LoRA 微调

支持企业基于自有数据快速定制垂直领域模型

—

API 兼容

OpenAI / Anthropic 格式零改动迁移

05 · 成本优势

重新定义性价比标准

V4-Flash ¥2/M，比 GPT-4 Turbo 便宜 98.57%。企业部署成本下降超过 90%，让 AI 应用从"奢侈品"变成"日用品"。

98.57%

比 GPT-4 Turbo 节省

V4-API 价格仅为 GPT-4 Turbo 的 1.43%

1/4 ~ 1/7

对比闭源旗舰折扣

Claude / GPT 的 API 成本是我们的 4-7 倍

90%+

企业部署成本降幅

开源权重 + 私有化部署，完全掌控数据

供应商	模型	输入 / M	输出 / M	100万输出对比
DeepSeek 推荐	V4-Pro	¥6	¥24	基准
DeepSeek	V4-Flash	¥0.5	¥2	比 V4-Pro 再省 92%
OpenAI	GPT-4 Turbo	$30 ≈ ¥217	$60 ≈ ¥435	— 基准
Anthropic	Claude 3.5 Sonnet	$15 ≈ ¥109	$75 ≈ ¥543	贵 271x vs V4-Flash
Google	Gemini 2.0 Ultra	$7.5 ≈ ¥54	$30 ≈ ¥217	贵 108x vs V4-Flash

应用开发民主化

初创公司与独立开发者首次能以极低成本构建 AI 应用。GPT-4 时代需要谨慎评估的 API 费用，在 DeepSeek 时代几乎可以忽略不计。

企业 AI 转型加速

AI 使用场景从"试点"走向"全面铺开"，大量此前因成本过高无法推进的 AI 自动化场景变得可行。

开源生态繁荣

开源权重允许企业私有化部署，完全摆脱 API 费用束缚。DeepSeek 成为企业 AI 基础设施的首选开源底座。

06 · 开源生态

MIT 完全开源

全系列 MIT 协议，权重在 HuggingFace + ModelScope 公开，58 页技术报告详细披露训练细节。打破闭源巨头对 AI 能力的垄断。

MIT

最宽松的开源协议 · 商业使用无限制

允许任何人自由使用、复制、修改、分发和销售 DeepSeek 模型，包括商业用途。无需申请授权，无需注明出处（但建议注明 DeepSeek）。

开源内容

模型权重（Model Weights）
58 页详细技术报告
完整训练代码与配置
推理部署工具链
基准测试代码与数据
Anthropic API 兼容接口

生态集成

Ollama 本地运行
vLLM 高性能推理引擎
TensorRT-LLM 加速
SGLang 深度集成
LlamaIndex / LangChain 官方支持
华为昇腾 Day 0 适配

平台可用性

HuggingFace · 全球最大开源模型平台
ModelScope · 阿里魔搭
SiliconFlow · 云端 API
Replicate · 云推理平台
官方 API · 官方渠道保障
私有化部署 · 企业内网自主

社区影响

GitHub 星标数突破 50 万
全球开发者活跃度前三
累计下载量超 5000 万次
推动 LLaMA 3.1 跟进开源
《Nature》《Science》引用
全球科研机构广泛使用

HuggingFace

全球最大开源模型平台

ModelScope

阿里云魔搭社区

SiliconFlow

AI 应用开发平台

Replicate

云端模型推理平台

07 · 竞品对比

开源 vs 闭源

DeepSeek V4 以开源 + 低成本 + 高性能三合一优势，成为闭源巨头的最强挑战者。

模型	开源	参数量	上下文	输出价格	中文能力	部署
DeepSeek V4-Pro	✓ MIT	1.6T（激活 49B）	1M	¥24/M	顶尖（93.1%）	开源/云/私有
DeepSeek V4-Flash	✓ MIT	284B	128K	¥2/M	顶尖（93.1%）	开源/云/私有
GPT-4.5 Turbo	✗ 闭源	未公开	128K	$60 ≈ ¥435	良好（翻译腔）	仅云端
Claude 3.7 Sonnet	✗ 闭源	未公开	200K	$75 ≈ ¥543	良好	仅云端
Gemini 2.0 Ultra	✗ 闭源	未公开	1M	$30 ≈ ¥217	良好	仅云端
LLaMA 4 Scout	✓ Llama 4	1090B（激活 400B）	1M	自部署	中等	开源私有

完全自主可控

GPT-5、Claude、Gemini 均为闭源，无法私有化部署、数据必须上云。DeepSeek 权重开源，企业可完全掌控数据与模型。

极致价格优势

GPT-4 Turbo 输出价格是 V4-Flash 的 217 倍。即使是性价比著称的 Gemini 2.0 Ultra，DeepSeek V4-Flash 依然保持近 10x 优势。

中文原生优势

DeepSeek 对中文语境、俗语、成语、文化背景的理解深度明显优于英文语料为主的闭源模型。C-Eval 93.1% 即是证明。

无厂商锁定风险

使用闭源模型意味着依赖第三方，面临价格变动、服务中断、地缘政治等风险。开源模型让企业真正掌控自己的 AI 能力。

DeepSeek V4