第20章 V4 在开源大模型版图里的位置

“Each model is a snapshot. The trajectory of all snapshots together is the field.” —— 引自一位 LLM 史学者

拆完 V4 的源码之后,我们要走出”放大镜”,回到地图——V4 在 2026 年开源大模型版图里到底处在什么位置?接下来 12-18 个月会怎样演进?


20.1 2026 年开源 LLM 版图

把 2026 年 4 月的主流开源 LLM 按”架构 / 上下文 / 训练栈” 三个维度摆出来:

模型总参/激活上下文AttentionMoE精度协议
DeepSeek V4 Pro1.6T / 49B1MMLA + sparse + 滑窗384 / top-6FP4 + FP8MIT
DeepSeek V4 Flash284B / 13B1MMLA + sparse + 滑窗smaller MoEFP4 + FP8MIT
Qwen3-MoE-Max~700B / 35B256Kdense MLA~128 / top-6FP8Apache
Llama 4 Behemoth~2T / ~80B1Mdense + GQA~64 / top-1-2BF16/FP8Llama Community
Mistral Magnum~480B / 22B128Kdense + GQAdenseBF16Apache
Gemma 3.570B (dense)1Mdense + sliding-BF16Gemma
GLM-5 (清华)~600B (推测)256Kdense MLA-likedense / MoE 待定BF16/FP8Apache

V4 在三个维度上唯一

  • 唯一 1.6T MoE + 1M context + 稀疏 attention 的开源模型
  • 唯一 FP4 expert + FP8 linear 的混合精度方案
  • 唯一 MIT 许可 的旗舰开源 LLM(Qwen 是 Apache,Llama 是 Llama Community,Gemma 是 Gemma)

这三条让 V4 在”长上下文 + 价格敏感 + 自由商用”三重需求下几乎没有竞争对手。


20.1·补 V4 在 2026 年开源 LLM 版图中的”坐标”

把 V4 Pro / V4 Flash 与同期主要竞争者放到”上下文长度 × 总参数量”的二维坐标上:

quadrantChart
  title 2026 年 4 月开源 LLM 坐标(上下文 × 总参数量)
  x-axis "上下文长度 (log)" --> "1M+"
  y-axis "总参数 (log)" --> "2T+"
  quadrant-1 "大参数 + 长上下文 (V4 Pro 的甜区)"
  quadrant-2 "大参数 + 短上下文 (Mistral Magnum)"
  quadrant-3 "小参数 + 短上下文 (端侧模型)"
  quadrant-4 "小参数 + 长上下文 (V4 Flash, Gemma)"
  "DeepSeek V4 Pro": [0.95, 0.85]
  "DeepSeek V4 Flash": [0.95, 0.45]
  "Llama 4 Behemoth": [0.85, 0.95]
  "Qwen3-MoE-Max": [0.55, 0.6]
  "Mistral Magnum": [0.4, 0.5]
  "Gemma 3.5": [0.85, 0.15]
  "Qwen3-7B": [0.35, 0.05]

V4 Pro 在右上角——“1M context + 1.6T 参数”几乎无对手。V4 Flash 在右中——“1M context + 中等参数”也很独特。Llama 4 Behemoth 与 V4 Pro 接近,但因为 dense 架构 KV 占用更大,长 context 部署成本远高。

这张坐标图给”什么场景选 V4” 提供了视觉判断——你的需求落在右半区时 V4 是首选,左半区有更便宜的选择。


20.2 V4 vs Qwen3 / Llama 4 / Mistral 实战对比

把 V4 与三个主要竞争对手做实战对比(基于公开 benchmark + V4 README 数字):

长文档分析(200K-1M context)

指标V4 ProQwen3-MoE-MaxLlama 4 BehemothGemma 3.5
1M context 支持❌ (只到 256K)
KV cache 体积极低 (2-9 GB)高 (50+ GB)
单卡部署可行性高 (Pro 8 卡, Flash 2 卡)低 (需 16+ 卡)高 (单卡)
Token 价格极低-
综合推荐首选中文场景闭源生态对接端侧/单卡

推理与代码任务(<128K context)

V4 / Qwen3 / Llama 4 / Mistral 在 128K 以内的能力差异更小——这是”大家都能做好”的领域。选型主要看:

  • 价格:V4 Pro 与 Flash 的 token 价显著低于 Llama 4 / Mistral 商用价
  • 中文支持:V4 / Qwen3 强于 Llama 4 / Mistral
  • 推理深度:V4 的 Think Max 模式与 Qwen3 的 think 模式接近,强于 Llama 4 / Mistral 的”无显式 thinking”

实时对话与端侧

V4 在这个领域不是首选——尺寸太大,Flash 也仍需多卡。Gemma 3.5 / Qwen3-7B / Llama 4 Scout 是更合适的选择。


20.3 V4 对商业模式的冲击

V4 的发布对几个商业模式产生显著冲击:

闭源 LLM API 服务

V4 Pro 的 token 价(0.145/Minput+0.145/M input + 3.48/M output)显著低于 GPT-5.5 / Claude Opus 4.7 的同等长上下文价格。这意味着:

  • 中等规模 SaaS 公司从闭源切到 V4 自建可以节省 50-80% 推理成本
  • 长文档处理类产品(合同分析、研究报告生成)尤其受益
  • 对延迟极敏感的产品(实时对话、客服)仍然倾向闭源(更稳定的延迟保证)

模型代理 API(中转)

之前依赖”OpenRouter / 多模型聚合 API” 的产品,现在可以直接对接 V4 ——绕过中间层,进一步降本。

训练即服务

V4 把 1.6T MoE 训练栈开源(Muon + GRPO + on-policy 蒸馏的工程方案在公开 paper 中),降低了”自训类似规模模型”的门槛。但 32T tokens 的数据 + 训练算力仍是巨大壁垒——大多数公司仍会选择 fine-tune V4 而非 from-scratch 训练。

长上下文专用模型

之前给”100K+ context 任务” 单独训练的小模型(比如 Anthropic 的 100K Claude variant)的市场价值下降——V4 的 1M context 已经覆盖大部分场景。


20.4 V4 推动的 4 个研究方向

V4 的源码 + 训练栈开源后,会推动几个研究方向加速:

方向 1:稀疏 attention 的进一步优化

V4 的 Indexer + sparse_attn 是 1.6T 规模的工业实证。预计 12 个月内会有:

  • 更高效的 score net(替代 V4 的 Indexer)
  • 自适应 ratio(运行时根据 prompt 调 compress_ratio)
  • 与 Mamba/SSM 的混合架构

方向 2:FP4 / 更低精度训练

V4 是第一个把 FP4 expert 推到 1.6T 规模的开源模型。预计后续会有:

  • 全 FP4 训练(不只是 expert)
  • FP3 / FP2 训练的可行性研究
  • 更激进的 ue6m0 / ue4m0 scale 格式

方向 3:Hyper-Connections 的拓展

V4 的 HC 是 hc_mult=4。预计后续工作会探索:

  • 更高 hc_mult(8 / 16)的可行性
  • HC 在小模型上的效果(V4 是首次工业化,小模型上效果未知)
  • 与其他残差变体(Highway / DenseNet)的混合

方向 4:多领域专家 + 蒸馏 pipeline

V4 的两阶段后训练是 R1 路线的一般化。预计会被广泛复制到:

  • 多语言专家(每语言一个专家)
  • 多模态专家(文本 / 视觉 / 音频)
  • 多任务专家(聊天 / 推理 / 工具使用)

每个方向都会催生新的开源模型——V4 成为一代”标杆 + 起点”。


20.5 V5 可能的方向(推测)

基于 V2 → V3 → V3.2 → V4 的演进规律,对 V5 做一个有依据的推测——只是推测,作者没有任何内部信息:

推测 1:原生多模态

V4 是纯文本。下一代很可能加视觉 / 音频编码器——继承 V4 的 1.6T MoE backbone,前面接专门的视觉 tokenizer(类似 Qwen-VL 模式)。

推测 2:Mamba/SSM 混合

V4 已经把 Compressor 做得像”非 recurrent 状态压缩”。V5 可能正式引入 SSM 层——某些层走 Mamba2,某些层走 V4 attention,混合架构。

推测 3:3M / 10M context

V4 的 1M context 在 float32 精度下接近极限。V5 可能:

  • 用 float64 计算 freqs_cis 支持 10M
  • 引入”层级 KV”(更多 ratio 层级,比如 1024 倍压缩)
  • 探索”按需检索 KV”(不存全部 KV,按需从外部检索)

推测 4:FP4 全栈训练 + 更激进精度

V4 是 FP4 expert + FP8 linear。V5 可能:

  • 全 FP4(包括 linear / attention)
  • 引入 FP6(精度与显存的折中)
  • 与 NVIDIA 下一代硬件(B300 ?)的原生 FP4 / FP6 指令深度集成

推测 5:在线学习 / 持续预训练

V4 是”训完一次就发布”。V5 可能引入:

  • 持续预训练(持续学新数据)
  • 在线 fine-tune(用户反馈实时纳入)
  • federated 训练(多方共训不分享原始数据)

这些都是纯推测——读者请保持适度怀疑。


20.5·补 V4 之前的 DeepSeek 模型谱系

把 V2 → V3 → V3.2-Exp → V4 这条谱系用 timeline 画出来:

timeline
  title DeepSeek 模型谱系(2024-2026)
  2024-05 : DeepSeek V2 (236B/21B) - MLA + DeepSeekMoE 奠基
  2024-12 : DeepSeek V3 (671B/37B) - 256 expert + FP8 训练
  2025-01 : DeepSeek R1 - 长链推理 + GRPO
  2025-09 : DeepSeek V3.2-Exp - DSA 稀疏注意力实验
  2026-04 : DeepSeek V4 Pro/Flash (1.6T/49B) - HC + 稀疏 + FP4

每代之间的”工程跳跃”:

  • V2 → V3:MoE 容量翻 3 倍(64 → 256 expert)+ FP8 训练栈成熟
  • V3 → R1:训练目标从”通用”到”推理专长”
  • R1 → V3.2-Exp:把推理能力的训练经验回流到 base 模型 + 稀疏注意力试验
  • V3.2-Exp → V4:把所有累积的”稀疏 / FP4 / HC / 多领域后训练” 一次性集成

理解这条演进让你预测 V5 的方向——大概率是”V4 + 视觉模态 + 多模态 SFT/RL + 更长上下文”。


20.6 中国 AI 开源运动的时代位置

V4 不只是一个模型——它是中国 AI 开源运动的一个里程碑。把它放在更大的时代脉络看:

时间事件时代意义
2023 年Llama 2 开源西方开源开始转向”商业可用”
2024 年初Llama 370B 大模型开源标杆
2024 年 5DeepSeek V2中国第一个 frontier 级 MoE 开源
2024 年 12DeepSeek V3671B MoE + FP8 训练栈
2025 年 1DeepSeek R1长链推理开源震撼
2025 年 9DeepSeek V3.2-Exp稀疏 attention 工业化预热
2026 年 4DeepSeek V4 Pro/Flash1.6T MoE + 1M + MIT 全开源

V4 把”开源 + 完全自由商用 + 旗舰能力”三者首次叠加。这种”开源到极致”的路线对全球 AI 生态的长期影响——超出本书技术范围,但值得每个关心 AI 的人持续观察。


20.7 给读者的”读完本书之后做什么”

读完这本书的 20 章,你已经具备本书前言里承诺的 5 项能力(§3·补)。接下来的具体行动建议:

短期(接下来 1-4 周)

  1. 把 V4 的 inference/model.py 完整读一遍,对照本书的章节标记每段代码的位置
  2. 跑一遍本书的 9 个动手实验,验证你对源码的理解
  3. 在 vLLM / SGLang 仓库里搜 “DeepseekV4”,跟踪最新 PR 进展

中期(1-3 个月)

  1. 用 V4 部署一个小型项目(个人长文档分析、代码助手等),积累生产经验
  2. 关注 V4 GA 发布——届时本书会出第二版补充 GA 与 Preview 的差异
  3. 阅读本书引用的 30+ 篇延伸论文中你最感兴趣的 5-10 篇

长期(3-12 个月)

  1. 跟进 V5 / V6 的发布——用本书学到的”读源码”方法论快速吃透新版本
  2. 关注 V4 推动的 4 个研究方向(§20.4),选 1-2 个深入
  3. 把”读源码”的能力迁移到其他领域——本书的方法论不限于 V4

20.8 章末:把一切串起来

V4 的故事可以浓缩成一句话:

“用稀疏注意力 + 超连接 + FP4 expert + Muon 优化器,把 1.6T MoE 在 1M context 下做到对手 1/3 的价格——MIT 开源给所有人。”

但这句话要展开成 20 章源码剖析,是因为每一个工程决策的背后都有几代模型踩过的坑、几种替代方案的取舍、几张并行图谱的协调。

这本书的目标不是让你”记住 V4 的所有细节”——而是让你学会读 V4 的源码:知道哪些细节重要,哪些细节是历史包袱,哪些细节会在 V5 中被取代。

LLM 演进的速度远超任何技术领域。读完这本书,你会发现 V5 / V6 / V7 出来时,读源码的方法是一样的——只是地图换了几个标记点。

“The architecture changes. The reading skill is forever.”

写到这里,杨艺韬讲堂《DeepSeek V4 源码剖析》全书完。


20.9 全书延伸阅读总目录

把全书 20 章引用的关键资料汇总——按主题分类:

V4 核心仓库

  • huggingface.co/deepseek-ai/DeepSeek-V4-Pro — 模型权重 + 源码 + 技术报告
  • github.com/deepseek-ai/FlashMLA — sparse_attn kernel
  • github.com/deepseek-ai/DeepGEMM — FP4/FP8 GEMM
  • github.com/deepseek-ai/DeepEP — MoE all-to-all

DeepSeek 系列论文

核心论文

杨艺韬讲堂相关卷


20.9·补 V4 与”小模型死亡论”的对话

V4 之前几年里有一种说法:“小模型快死了——大模型 + 蒸馏会让 7B / 13B 这种规模无法竞争”。V4 出来后这个说法部分被证伪、部分被强化

部分被证伪

V4 Pro 的 token 价已经压到与”7B 闭源 API”接近的水平——这意味着小模型的”价格优势”在 V4 时代被严重削弱。直接用 V4 比”自部署 7B” 更便宜、更强。

部分被强化

V4 Flash(284B / 13B 激活)证明了”模型大小 ≠ 推理成本”。Flash 的激活参数与 13B dense 模型相当,但能力远超——MoE 让”小激活参数 = 高能力”成为可能。这强化了”未来主流是 MoE 而非 dense” 的趋势。

真正的影响

小模型不会死,但非 MoE 小模型会变得边缘。未来的主流模型形态是:

  • 旗舰:1T+ MoE(V4 Pro 这一档)
  • 主力:200-500B MoE,13-30B 激活(V4 Flash 这一档)
  • 端侧:3-10B dense(手机、笔记本、边缘)

中间档(30-100B dense)会被 MoE 模型吃掉——它们的激活参数与 V4 Flash 相当,但能力差距大。

对开源生态的影响

Hugging Face 上 30-70B dense 模型会逐渐被 MoE 替代。Llama 4 / Qwen3 已经在向这个方向走——它们的旗舰都是 MoE。V4 是这个趋势的”提前到达”——证明 1.6T MoE 不只是研究品,而是可部署的生产系统。


20.9·补·补 给”准备进 LLM 领域的开发者” 的一句话

如果你刚开始进 LLM 领域,读这本书的最后 page 时,给一个最实用的建议

读完一本好的源码书,比读 100 篇博客有用。

V4 的开源源码 + 完整技术报告 + 三个工程仓库(FlashMLA / DeepGEMM / DeepEP),是过去 5 年 LLM 工程化的”集大成”。任何博客 / 视频教程都是从这些一手材料里”二手”出来的——你直接读源码,就站在了离真相最近的位置。

这本书的目的不是替代源码——而是给你一份”读源码的地图”。读完地图后,你应该能独立打开 inference/model.py,从第一行读到最后一行,每一行都能联系到本书的某个章节。

这是技术的复利——一旦你能直接读源码,每一个新模型(V5 / V6 / Llama 5 / Qwen 4)都是几小时的事,而不是几周。


20.9·延展 V4 给”未读源码就用 LLM”的工程师的一句话

最后一段写给那些”用 LLM 但从来没读过 LLM 源码”的工程师——这部分人是开发者社区的多数,是这本书可能 indirectly 影响的目标。

如果你属于这类人——会调 OpenAI API、会写 prompt、知道 RAG 是什么、用过 LangChain,但从来没真正打开过任何 LLM 模型的源码——你可能想问:我有必要读 V4 源码吗?

我的回答是:不一定要全读,但应该至少读一遍 inference/model.py

理由:

LLM 不是”魔法”。它是 800 行 Python + CUDA 的工程产物。你每次调 ChatGPT API、写 RAG 流程、做 fine-tune,背后都是这种代码在跑。你不读这些代码不会让产品做不出来——但你永远停留在”用别人的工具” 的层次。

读完一遍 inference/model.py(哪怕只是粗读,理解 80% 也够),你会获得几个具体能力:

  • 看到任何 LLM 论文,能立刻知道它在源码哪个位置改动
  • 评估 LLM 公司的”声称”(“我们的模型比 V4 快 2 倍”)时有判断基础
  • 设计产品功能时知道”哪些是 LLM 容易做、哪些是 LLM 难做”
  • 跟 LLM 工程师交流时有共同语言,不会被术语云遮蔽

这种能力对任何长期在 AI 领域工作的工程师 都是基础。读不读 V4 是个人选择——但如果你打算在 AI 领域工作 5 年以上,强烈建议你读。

这本书是”读 V4 的导览”。读完导览后真正打开 inference/model.py,你会发现它出乎意料地清晰——因为你已经知道每一段在做什么、为什么这样做。


20.9·拓展 给”做 AI 创业” 的开发者一句

读这本书的另一类读者是”做 AI 创业 / 副业产品” 的开发者。给这类读者一句具体建议:

在 V4 时代,不要从训练大模型开始

历史上每个新硬件 / 新模型时代都有人想”做下一个 OpenAI”——结果失败比例 99%+。资本、数据、算力、团队任何一个短板都让这种创业失败。

V4 的开源(MIT 许可)让 AI 创业的”基础原料”几乎免费——你直接用 V4 / Qwen3 / Llama 4 这些开源模型,跳过训练阶段。这意味着:

  • 不要训练:投资回报远远不够
  • 专注产品:你的优势在哪个领域、哪些用户、什么 workflow
  • fine-tune 而不是 from-scratch:如果你确实需要垂类模型,LoRA fine-tune 几小时搞定,预算 < $100
  • 多模型并存:选 V4 用于长 context、选 Qwen3 / Llama 4 / Gemma 用于短 context、自己搭路由器

具体到产品形态:

  • 法律 / 合同分析:V4 + RAG + 行业知识库 → 有市场
  • 个人助理 / 日记 / 记账:V4 / Flash 太大,选小模型 + 端侧
  • 代码 IDE 插件:V4 在仓库级理解上有独特优势(1M context)
  • 长视频 / 长文档处理:V4 是当前最佳选择
  • 实时聊天:V4 不是首选,选小模型 + 高并发

V4 不会让你的产品自动赢——但它把”让你的产品成为可能” 的门槛大幅降低了。


20.10 全书最后一段

写一本”V4 源码剖析”,在 V4 发布第 4 天就动笔,写到 20 章合计约 50,000+ 中文字、20+ 张 mermaid 图、100+ 段源码引用。这本书不会是关于 V4 的最完整资料——技术报告 + 公开 PR + 社区分析最终都会比一本书更全。

但这本书希望成为:关于 V4 最早出版、最坚持源码原教旨主义、最强调”读源码方法论而不是 V4 知识点”的中文专著

如果你读完这 20 章,能在面对下一代开源 LLM 的源码时,第一反应是打开 model.py 而不是搜索博客 ——这本书的全部目的就达成了。

写于 2026 年 4 月 28 日,杭州。

——杨艺韬

全书完。下一卷见。

评论 0