Appearance
LLM 评测体系:从离线判分到在线回归
第一本系统覆盖 LLM 应用评测工程全栈的中文专著。
每一个上线了 LLM 功能的团队,都会在某个深夜遇到同一个问题——"昨天还好好的,今天怎么效果就变了?" 模型升级了一个版本,prompt 多加了一句话,retriever 改了 chunk 大小,向量库换了索引参数。每一处改动都"看起来更好",但真实质量到底是涨了还是跌了?没人说得清。
这种"凭感觉调 LLM"的工程模式,在 2023 年是普遍现象,到 2026 年已经成为生产事故的最大单一来源。Air Canada 的退款 chatbot 因为一句幻觉赔了真金白银;Google Bard 在发布会上一句事实错误蒸发市值千亿;OpenAI、Anthropic 因模型版本静默退化被开发者反复声讨——所有这些事故,本质都是同一件事:LLM 应用上线后,再也没有人知道它到底好不好。
测试软件工程师靠的是断言——assert result == expected。LLM 工程师不能这么干,因为模型输出每次都不一样,"对"也不止一种说法。这就是为什么所有传统的 CI / 单测体系到了 LLM 这一层全部失效,必须重建一整套从数据集设计、判分方法、统计推断到在线监控的工程范式。这套范式有一个统一的名字——Evals。
本书拆解的就是这套范式。从最基础的"如何写一条规则判分",到 LLM-as-Judge 的偏差校准,再到 ragas、promptfoo、lm-evaluation-harness 这些开源框架的源码工程学;从离线评测的数据集冷启动,到 CI 里把 Evals 变成质量门禁;从 RAG 的 Faithfulness 度量,到 Agent 的 Trajectory 评估,再到多轮对话与安全对齐的专项评测。
读完本书,你会知道:你的 LLM 应用每一次改动的真实效果——而不是猜的。
适合谁读
- LLM 应用工程师:已经把 LangChain / LangGraph / RAG 跑通,但下一步的"质量怎么衡量"卡住了
- AI Infra / 平台工程师:要为团队搭建评测平台,需要理解 langsmith / langfuse / phoenix 等系统的设计差异
- 算法 / 模型评测同学:想从学术 benchmark(MMLU、MT-Bench、Arena Hard)跨到工业级线上评测体系
- 技术负责人 / Tech Lead:负责 LLM 项目交付质量,需要建立可量化的验收标准
前置阅读:本书假设读者已经写过 LLM 应用代码(至少调过 OpenAI / Anthropic API),理解 prompt、retriever、tool calling 的基本概念。如果你还在 LLM 入门阶段,建议先读丛书的《LangChain 工程实战》《RAG 工程与检索系统设计》。
目录
第一部分:为什么需要评测
第二部分:评测理论基础
第三部分:判分方法学
- 第 5 章 规则判分:Exact Match / Regex / JSON Schema
- 第 6 章 LLM-as-Judge:原理、偏差与校准方法
- 第 7 章 人工评测:标注流程、一致性度量与众包成本
- 第 8 章 元评测:如何评测评测器本身
第四部分:开源框架源码剖析
- 第 9 章 OpenAI evals:模板系统与 Solver 抽象
- 第 10 章 lm-evaluation-harness:学术评测的事实标准
- 第 11 章 ragas:RAG 评测的工程范式
- 第 12 章 promptfoo:生产化评测最易上手的工具
第五部分:场景化评测实战
- 第 13 章 RAG 评测:Context Recall、Faithfulness、Answer Relevance
- 第 14 章 Agent 评测:Tool Calling 正确性与 Trajectory 评估
- 第 15 章 多轮对话评测:MT-Bench、Arena Hard 与对话级指标
- 第 16 章 安全与对齐评测:HELM、Jailbreak、Bias 与红队测试
第六部分:生产化与持续评测
源码版本与数据来源
本书所有源码引用、性能数字、实验结论均基于以下版本和公开来源(2026 年 4 月 27 日锁定):
| 项目 | 版本 / Commit | 引用范围 |
|---|---|---|
| openai/evals | 4c8a2c2 (2025-11) | 第 9 章 |
| EleutherAI/lm-evaluation-harness | v0.4.5 | 第 10 章 |
| explodinggradients/ragas | v0.2.10 | 第 11、13 章 |
| promptfoo/promptfoo | 0.106.0 | 第 12、18 章 |
| langchain-ai/langsmith-sdk | 0.3.1 | 第 17 章 |
| langfuse/langfuse | v3.45.0 | 第 17 章 |
| Arize-ai/phoenix | 7.5.1 | 第 17 章 |
学术 benchmark 与论文引用:MMLU (Hendrycks et al. 2021, arXiv:2009.03300)、MT-Bench (Zheng et al. 2023, arXiv:2306.05685)、Arena Hard (Li et al. 2024)、HELM (Liang et al. 2023, arXiv:2211.09110)、ragas 论文 (Es et al. 2023, arXiv:2309.15217)、G-Eval (Liu et al. 2023, arXiv:2303.16634)、JudgeBench、TruthfulQA、HaluEval。
行业事故与公开数据:Air Canada v. Moffatt (2024 BCCRT 149)、Google Bard demo 事件、ChatGPT 退化争议(公开 GitHub Issue / Reddit / arXiv:2307.09009)、Anthropic / OpenAI 官方 model deprecation 公告。
读者可通过仓库 git clone 命令获取与本书完全一致的源码:
bash
git clone https://github.com/openai/evals.git
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
git clone https://github.com/explodinggradients/ragas.git
git clone https://github.com/promptfoo/promptfoo.git
git clone https://github.com/langchain-ai/langsmith-sdk.git
git clone https://github.com/langfuse/langfuse.git
git clone https://github.com/Arize-ai/phoenix.git本书与其他卷的关系
本书是杨艺韬讲堂"AI 工程化"系列的第七卷,与以下卷形成知识网络:
- 《LangChain 工程实战》:链式调用与 Agent 框架,是 Evals 的常见被测对象
- 《LangGraph 多 Agent 编排》:Trajectory 评测在第 14 章重点引用其状态机模型
- 《MCP 协议工程》:Tool Calling 评测在第 14 章对照 MCP 的标准 schema
- 《RAG 工程与检索系统设计》:第 13 章 RAG 评测与之配套,前者讲怎么搭、本书讲怎么测
- 《vLLM 推理引擎》:模型版本切换的回归评测策略在第 18 章引用 vLLM 的版本管理实践
- 《Claude Code 工程化》:CI 集成在第 18 章使用 Claude Code 作为参考实现
版权声明
本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接,禁止商业用途。