Deeplearning.ai 《Retrieval-Augmented Generation (RAG)》课程导读（四）

[源视频][1]

根据视频字幕生成，是给不想看视频的人准备的速读文档

简介

本部分聚焦 如何将 RAG 系统真正投入生产。你将学习部署前的准备步骤，并回顾多种系统评估策略：既可针对单个组件，也可面向整体系统，同时需在运行过程中持续观测性能表现。课程还特别强调 日志记录 的重要性，它不仅能追踪调用，还能帮助定位低质量响应的根源。

随后，你会接触几项关键实践：

从真实流量中构建 自定义数据集，用客户数据测试系统更新。
在设计与调优中处理常见权衡，如成本、内存、存储与延迟，并学习在不显著降低质量的前提下对齐需求。
探索前沿方法，将 多模态数据（图像、PDF 等）整合进知识库，让系统具备处理非文本信息的能力。

本模块旨在帮助你掌握从原型走向生产的关键实践：建立评估与监控体系，权衡成本、延迟与质量，并通过量化、安全机制和多模态扩展不断优化 RAG 系统。

RAG 评估策略

部署 RAG 的第一步是搭建 可观测性系统，并建立系统化的评估方法。

可观测性与指标收集

系统需同时追踪：

性能指标：延迟、吞吐量、内存、计算资源。
质量指标：用户满意度、回复准确性、检索器召回率。

除聚合统计外，还应保存详细日志，以便追踪单个提示在管道中的流转，定位低效或错误响应。

评估与实验

系统应支持 A/B 测试，便于验证模型切换、提示修改或检索器调整的效果。

评估维度：

范围：
系统级评估 → 把握整体表现
组件级评估 → 定位瓶颈（如检索器或 LLM）
方法：
基于代码 → 自动化、低成本（吞吐量、单元测试）
人工反馈 → 捕捉代码遗漏的问题（用户点赞/点踩、调查问卷）
LLM 作为裁判 → 成本低于人工、灵活，但需防止偏见（如判定“相关/不相关”）

最佳做法是 多方法结合：
性能监控 + 人工标注测试集 + LLM 评估，在低/高成本间取得平衡，同时兼顾系统整体与组件质量。

日志与监控

课程推荐借助 现代可观测性平台，而非完全自建。

以 Phoenix（Arise 开源工具）为例：

追踪：记录提示在 RAG 管道中的完整路径（检索、重排、拼接提示、生成响应），并标注延迟。
指标收集：与 RaaS 库集成，计算检索相关性、验证引用准确性。
实验：支持提示迭代与 A/B 测试。
聚合监控：提供日报与趋势统计，如检索准确率、幻觉率。

但 Phoenix 不覆盖所有需求，如 GPU/内存监控，仍需 Datadog、Grafana 等传统工具。

良好的可观测性管道能形成 改进飞轮：
通过生产流量发现问题 → 在日志和自定义数据集上验证改动 → 优化 → 回到生产环境验证。

定制化评估体系

核心方法是：把 真实用户提示 整理为 自定义数据集，用于回放与对比。

数据集粒度可分：

最小集：仅包含用户输入与最终回复，适合端到端评估。
组件集：额外存储检索结果、重排前后结果、查询重写等，便于诊断具体问题。

实践案例：

在客服场景中，日志分析可能揭示“退款”问题表现良好，而“物流延迟”表现差 → 原因是检索器缺乏相关文档。
在支持文本转图像/图表的系统中，路由 LLM 错误分配任务，导致图表输出错误 → 调整系统提示后修复。

当数据量大时，可用 聚类与可视化 提炼主题（如新品发布、故障排查），再对主题单独评估，发现薄弱环节。

模型量化技术

量化是生产环境中 成本、速度、质量 权衡的关键。

主要形式

LLM 量化：将 16 位参数压缩为 8 位或 4 位，大幅降低显存占用与推理延迟，代价是轻微质量下降。
向量量化：
8 位整数量化 → 体积降至约 1/4，召回率仅下降几个百分点。
1 位（二值化）→ 规模缩小 32 倍，但检索质量损失大；常配合“粗检-重排”。
套娃嵌入：按信息密度排序维度，部分场景只用前 100–500 维快速检索，必要时再全量重排。

实践建议

优先使用 8 位整数量化（适用于 LLM 与嵌入模型）。
结合评估体系，监控延迟、吞吐、召回率、幻觉率，验证量化效果。
可采用“低精度检索 + 高精度重排”组合策略。

总的来看，量化能够在几乎不损失质量的前提下，显著降低显存和存储消耗，并提升推理与检索速度，是生产环境中最实用的优化手段之一。

成本与响应质量的平衡

RAG 的主要成本来自 LLM 推理 与 向量数据库。

LLM 成本优化

使用更小或量化后的模型。
限制令牌数量（减少 top-k，裁剪长段落，设置输出上限）。
选择合适的部署方式：
原型 → 公共推理端点
规模化 → 专用推理硬件（更划算且稳定）

向量库成本优化

分层存储：热数据放 RAM，冷数据放磁盘/对象存储。
动态迁移：根据访问模式自动调整。
多租户优化：只在 RAM 中加载当前活跃租户的索引。

核心思路：用实验与监控量化权衡，确保节省成本不以显著质量下降为代价。

时延与质量的权衡

每新增一个质量优化组件，都会增加延迟。取舍取决于场景：

电商推荐 → 极低延迟优先
医疗诊断 → 高质量优先

优化顺序：

核心 LLM：用小模型/量化模型；路由简单任务给小模型；利用缓存。
管道组件：剔除低性价比步骤（如价值有限的查询生成器）。
检索优化：使用量化嵌入，加快距离计算；或采用数据库分片。

关键原则：持续测量延迟与质量指标，找到项目可接受的平衡点。

安全防护机制

RAG 系统面临独特的安全风险，尤其是知识库中常包含敏感信息。

主要风险：

提示攻击诱导模型泄露文档。
外部调用时暴露知识片段。
向量数据库被入侵。

关键防护：

访问控制：基于身份验证与多租户隔离。
本地化部署：在安全场景中，完全自建 LLM 与数据库。
加密存储：加密文本块，检索后解密；但向量必须明文存放，存在风险。
向量攻击防护：通过加噪、变换或降维降低可逆性（会增加复杂度与性能损耗）。

核心结论：敏感信息必须有明确的边界与控制机制。

多模态RAG系统

多模态 RAG 将文本扩展到 图像（甚至音频/视频），检索与提示均可跨模态，输出仍为文本。

关键机制：

使用 多模态嵌入器 将文本与图像映射到同一向量空间。
使用 语言-视觉模型（VLM） 接收多模态输入并生成文本输出。

在检索流程中：

同模空间检索：查询可为文本或图像，统一编码后进行向量搜索。
文档格式扩展：PPT、PDF 等转为图像再分块嵌入。
PDF-RAG 技术：将页面切分成数百小块嵌入，支持细粒度检索，但会显著增加向量规模。

要点：

架构升级成本低，仅需替换嵌入器和 LLM。
检索更精准，但存储与计算开销增加（可用量化、分层存储、粗检-精排优化）。
生态正在快速发展，主流厂商已推出 VLM，多模态嵌入器逐渐成熟。

一句话总结：多模态 RAG 通过“同空间嵌入 + VLM 生成”打通文本与图像，实现更丰富的知识检索与问答。

总结

进入生产环境后，RAG 系统将面临更复杂的挑战：高流量、不确定性错误、潜在安全风险。
本模块的核心收获：

评估体系：可观测性、日志、系统级与组件级评估。
权衡策略：在质量、成本、延迟之间找到最佳平衡点。
安全防护：确保敏感信息的边界。
多模态扩展：突破文本限制，支持更广泛的知识格式。

至此，你已具备从 原型到生产 构建 RAG 系统的完整基础。课程希望你不仅掌握方法与技巧，也能带着灵感去探索更复杂、更真实的 AI 应用场景。

简介