Appearance
vLLM内核探秘
第一本深入 LLM 推理引擎内核的架构专著。
本书基于 vLLM v0.8.x(V1 引擎架构)源码,系统剖析大语言模型推理引擎的设计与实现。从一个推理请求的完整生命旅程出发,由外到内、层层深入,涵盖 EngineCore 引擎核心、调度器、PagedAttention、KV Cache 管理、前向计算、采样策略、前缀缓存、投机解码、量化引擎、分布式推理等核心子系统——带你理解每一个架构决策背后的"为什么"。
适合谁读
有 Python/PyTorch 经验的 AI 工程师、LLM 应用开发者、推理优化工程师,以及所有想理解"LLM 推理引擎内部到底是怎么工作的"技术人。
目录
开篇
第一篇:全景
第二篇:引擎核心
第三篇:执行层
第四篇:性能优化
第五篇:分布式与工程
版权声明
本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接,禁止商业用途。