Appearance
RAG 工程与检索系统设计
一本系统讲解 RAG 从 demo 到生产的工程专著。
RAG 不是"向量数据库 + 大模型"这么简单。真正的生产级 RAG 系统要处理文档解析、分块、Embedding、索引构建、权限过滤、混合召回、重排序、上下文压缩、引用溯源、增量更新、质量评估、成本延迟控制,以及 Agent 长期记忆。任何一环做错,最终都会表现为同一个症状:模型看似会回答,实际不可信。
本书从一次用户提问的完整生命周期出发,拆解 RAG 系统的每个工程边界:知识如何进入系统、问题如何变成检索请求、候选证据如何被筛选、上下文如何被打包、答案如何被验证、系统如何被评估和运营。目标不是教你调一个框架 API,而是建立一套能迁移到企业知识库、代码检索、客服问答、研究助手、Agent Memory 的工程心智模型。
适合谁读
有一定编程经验的 AI 应用开发者、RAG 系统架构师、搜索与推荐工程师、Agent 框架设计者,以及所有想把"知识库问答 demo"推进到生产环境的技术人。
目录
开篇
第一部分:RAG 系统全景
第二部分:知识进入系统
- 第5章 文档解析:PDF、HTML、Markdown、代码仓库
- 第6章 Chunking:固定分块、结构化分块与语义分块
- 第7章 Metadata 与权限模型:让知识带着边界进入索引
- 第8章 增量索引:更新、删除、重建与一致性
第三部分:表示与索引
- 第9章 Embedding:文本如何变成可检索的向量
- 第10章 向量索引:Flat、HNSW、IVF 与 PQ 的工程直觉
- 第11章 向量数据库:Qdrant、Milvus、pgvector 的架构取舍
- 第12章 稀疏检索:BM25 为什么仍然重要
第四部分:召回、排序与上下文
- 第13章 Hybrid Search:向量召回与关键词召回的融合
- 第14章 Rerank:把"大致相关"变成"真正可用"
- 第15章 Query Rewrite:让用户问题变成可检索问题
- 第16章 Context Packing:把证据装进有限上下文
- 第17章 引用、溯源与答案可信度
第五部分:Agent Memory 与 GraphRAG
第六部分:生产化
版权声明
本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接,禁止商业用途。