Skip to content

DeepSeek V4 源码剖析

第一本面向 1.6T 稀疏 MoE 模型源码的深度专著。

本书基于 DeepSeek-V4-Pro Preview(2026-04-24 在 Hugging Face 开源,MIT 许可)的官方推理实现 inference/model.pyconfig.json、官方 DeepSeek_V4.pdf 技术报告,以及与之配套发布的三个工程仓库——FlashMLA(稀疏注意力 CUDA 内核)、DeepGEMM(FP4/FP8 GEMM 内核)、DeepEP(MoE all-to-all 通信库),系统拆解 V4 在架构、精度、训练、部署四个维度上的全部设计决策。

这本书会回答你什么

  • 为什么 V4 把传统残差换成了 Hyper-Connections(hc_mult=4)?数学结构如何在 BF16 与 FP32 之间稳定切换?
  • 1M token 上下文,是怎么把 KV cache 压到 V3.2 的 10%、推理 FLOPs 压到 27% 的?Compressor + Indexer + sparse_attn 三件套各承担什么角色?
  • 384 个 routed expert + 1 个 shared expert,top-6 激活,前 3 层为什么是 hash 路由而不是学习路由?sqrtsoftplus 比 softmax / sigmoid 强在哪里?
  • FP4 e2m1 (experts) + FP8 e4m3 (linear) + ue8m0 scale + 块大小 128×128 的混合精度方案,到底是怎么在 1.6T 参数上保住数值稳定性的?
  • Muon 优化器取代 AdamW 的关键差异是什么?32T tokens 预训练 + 两阶段后训练(领域 SFT/RL → on-policy 蒸馏)的 pipeline 怎么走?
  • V4 怎样在 vLLM / SGLang / FlashMLA 这些下游引擎里被"激活"——从 DeepseekV4ForCausalLM 配置到 PagedAttention + 稀疏 kernel 的对接路径。

目录

开篇

第一篇:全景

第二篇:注意力革命

第三篇:MoE 引擎

第四篇:超连接与 MTP

第五篇:FP4 / FP8 训练栈

第六篇:分布式与通信

第七篇:训练与对齐

第八篇:生态与部署

适合谁读

  • AI 基础设施工程师:vLLM / SGLang / TensorRT-LLM 的开发者或贡献者,想看 V4 在引擎侧落地的全部接缝
  • 大模型预训练 / 后训练工程师:关心 384 专家、Muon、FP4/FP8 训练栈背后的真实工程取舍
  • 算法研究者:想深入 MLA → Compressor → Indexer → sparse_attn 这条稀疏注意力研究主线
  • 想跟上前沿的工程师:希望从一份 1.6T MoE 的真实源码出发,把 2024-2026 的 LLM 架构演进串成一条逻辑线

学习建议

V4 的源码看似只有 800 行 inference/model.py,但每一行背后都压着一篇论文级的设计决策。建议按"第一篇 → 第二篇 → 第四篇 → 第三篇 → 第五篇 → 其他"的顺序读:

  • 先建立全景注意力革命的认识,看懂 1M 上下文怎么被压成可负担的 KV
  • 再读超连接 / MTP,理解 V4 在残差层级做的非局部改造
  • 然后回头看 MoE 引擎,384 专家 + hash 路由的设计就不再突兀
  • 最后通过 FP4/FP8 训练栈分布式章节,把这些设计落到真实硬件上

相关丛书

版权声明

本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接,禁止商业用途。

本书所引用的 DeepSeek-V4 源码遵循 MIT 许可,分析的版本为 Preview Release(HF 仓库 deepseek-ai/DeepSeek-V4-Pro,2026-04-24 首次提交)。后续随官方代码更新,相关章节会标注适用版本范围。

基于 VitePress 构建