Appearance
DeepSeek V4 源码剖析
第一本面向 1.6T 稀疏 MoE 模型源码的深度专著。
本书基于 DeepSeek-V4-Pro Preview(2026-04-24 在 Hugging Face 开源,MIT 许可)的官方推理实现 inference/model.py、config.json、官方 DeepSeek_V4.pdf 技术报告,以及与之配套发布的三个工程仓库——FlashMLA(稀疏注意力 CUDA 内核)、DeepGEMM(FP4/FP8 GEMM 内核)、DeepEP(MoE all-to-all 通信库),系统拆解 V4 在架构、精度、训练、部署四个维度上的全部设计决策。
这本书会回答你什么
- 为什么 V4 把传统残差换成了 Hyper-Connections(hc_mult=4)?数学结构如何在 BF16 与 FP32 之间稳定切换?
- 1M token 上下文,是怎么把 KV cache 压到 V3.2 的 10%、推理 FLOPs 压到 27% 的?
Compressor+Indexer+sparse_attn三件套各承担什么角色? - 384 个 routed expert + 1 个 shared expert,top-6 激活,前 3 层为什么是 hash 路由而不是学习路由?sqrtsoftplus 比 softmax / sigmoid 强在哪里?
- FP4 e2m1 (experts) + FP8 e4m3 (linear) + ue8m0 scale + 块大小 128×128 的混合精度方案,到底是怎么在 1.6T 参数上保住数值稳定性的?
- Muon 优化器取代 AdamW 的关键差异是什么?32T tokens 预训练 + 两阶段后训练(领域 SFT/RL → on-policy 蒸馏)的 pipeline 怎么走?
- V4 怎样在 vLLM / SGLang / FlashMLA 这些下游引擎里被"激活"——从
DeepseekV4ForCausalLM配置到 PagedAttention + 稀疏 kernel 的对接路径。
目录
开篇
第一篇:全景
第二篇:注意力革命
- 第2章 MLA 进阶:head_dim 512 与 grouped O 投影
- 第3章 Compressor:滑窗与 KV 几何压缩
- 第4章 Indexer:稀疏注意力的可学路由
- 第5章 sparse_attn 与 FlashMLA:V4 路径下的 CUDA 内核
- 第6章 YaRN RoPE 与 1M 长上下文工程
第三篇:MoE 引擎
- 第7章 Gate 之变:sqrtsoftplus、noaux_tc 与 routed_scaling
- 第8章 384 专家与 Hash 路由:前 3 层为什么不学
- 第9章 Expert 与共享专家:SwiGLU + clip + 容量平衡
第四篇:超连接与 MTP
第五篇:FP4 / FP8 训练栈
第六篇:分布式与通信
第七篇:训练与对齐
第八篇:生态与部署
适合谁读
- AI 基础设施工程师:vLLM / SGLang / TensorRT-LLM 的开发者或贡献者,想看 V4 在引擎侧落地的全部接缝
- 大模型预训练 / 后训练工程师:关心 384 专家、Muon、FP4/FP8 训练栈背后的真实工程取舍
- 算法研究者:想深入 MLA → Compressor → Indexer → sparse_attn 这条稀疏注意力研究主线
- 想跟上前沿的工程师:希望从一份 1.6T MoE 的真实源码出发,把 2024-2026 的 LLM 架构演进串成一条逻辑线
学习建议
V4 的源码看似只有 800 行 inference/model.py,但每一行背后都压着一篇论文级的设计决策。建议按"第一篇 → 第二篇 → 第四篇 → 第三篇 → 第五篇 → 其他"的顺序读:
- 先建立全景和注意力革命的认识,看懂 1M 上下文怎么被压成可负担的 KV
- 再读超连接 / MTP,理解 V4 在残差层级做的非局部改造
- 然后回头看 MoE 引擎,384 专家 + hash 路由的设计就不再突兀
- 最后通过 FP4/FP8 训练栈和分布式章节,把这些设计落到真实硬件上
相关丛书
- 《vLLM 推理内核深度解析》——理解 PagedAttention / V1 调度器 / KV Cache 后再读本书第 5、19 章会更通透
- 《PyTorch 内核源码剖析》——本书涉及的
torch.float8_e4m3fn/float4_e2m1fn_x2/view_as_complex等 PyTorch 底层在 PyTorch 卷里有专章 - 《LLM 评估工程》——V4 的 SFT/RL/蒸馏阶段需要严格的 eval 闭环,跟评估卷形成训练-评估对偶
- 《Tokio 异步运行时源码剖析》、《Hyper / Tower 源码剖析》——理解推理服务的 Rust 后端栈
版权声明
本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接,禁止商业用途。
本书所引用的 DeepSeek-V4 源码遵循 MIT 许可,分析的版本为 Preview Release(HF 仓库
deepseek-ai/DeepSeek-V4-Pro,2026-04-24 首次提交)。后续随官方代码更新,相关章节会标注适用版本范围。