[源视频][1]
根据视频字幕生成,是给不想看视频的人准备的速读文档
简介
本部分聚焦 如何将 RAG 系统真正投入生产。你将学习部署前的准备步骤,并回顾多种系统评估策略:既可针对单个组件,也可面向整体系统,同时需在运行过程中持续观测性能表现。课程还特别强调 日志记录 的重要性,它不仅能追踪调用,还能帮助定位低质量响应的根源。
随后,你会接触几项关键实践:
- 从真实流量中构建 自定义数据集,用客户数据测试系统更新。
- 在设计与调优中处理常见权衡,如成本、内存、存储与延迟,并学习在不显著降低质量的前提下对齐需求。
- 探索前沿方法,将 多模态数据(图像、PDF 等)整合进知识库,让系统具备处理非文本信息的能力。
本模块旨在帮助你掌握 从原型走向生产的关键实践:建立评估与监控体系,权衡成本、延迟与质量,并通过量化、安全机制和多模态扩展不断优化 RAG 系统。
RAG 评估策略
部署 RAG 的第一步是搭建 可观测性系统,并建立系统化的评估方法。
可观测性与指标收集
系统需同时追踪:
- 性能指标:延迟、吞吐量、内存、计算资源。
- 质量指标:用户满意度、回复准确性、检索器召回率。
除聚合统计外,还应保存详细日志,以便追踪单个提示在管道中的流转,定位低效或错误响应。
评估与实验
系统应支持 A/B 测试,便于验证模型切换、提示修改或检索器调整的效果。
评估维度:
-
范围:
-
系统级评估 → 把握整体表现
- 组件级评估 → 定位瓶颈(如检索器或 LLM)
-
方法:
-
基于代码 → 自动化、低成本(吞吐量、单元测试)
- 人工反馈 → 捕捉代码遗漏的问题(用户点赞/点踩、调查问卷)
- LLM 作为裁判 → 成本低于人工、灵活,但需防止偏见(如判定“相关/不相关”)
最佳做法是 多方法结合:
性能监控 + 人工标注测试集 + LLM 评估,在低/高成本间取得平衡,同时兼顾系统整体与组件质量。
日志与监控
课程推荐借助 现代可观测性平台,而非完全自建。
以 Phoenix(Arise 开源工具)为例:
- 追踪:记录提示在 RAG 管道中的完整路径(检索、重排、拼接提示、生成响应),并标注延迟。
- 指标收集:与 RaaS 库集成,计算检索相关性、验证引用准确性。
- 实验:支持提示迭代与 A/B 测试。
- 聚合监控:提供日报与趋势统计,如检索准确率、幻觉率。
但 Phoenix 不覆盖所有需求,如 GPU/内存监控,仍需 Datadog、Grafana 等传统工具。
良好的可观测性管道能形成 改进飞轮:
通过生产流量发现问题 → 在日志和自定义数据集上验证改动 → 优化 → 回到生产环境验证。
定制化评估体系
核心方法是:把 真实用户提示 整理为 自定义数据集,用于回放与对比。
数据集粒度可分:
- 最小集:仅包含用户输入与最终回复,适合端到端评估。
- 组件集:额外存储检索结果、重排前后结果、查询重写等,便于诊断具体问题。
实践案例:
- 在客服场景中,日志分析可能揭示“退款”问题表现良好,而“物流延迟”表现差 → 原因是检索器缺乏相关文档。
- 在支持文本转图像/图表的系统中,路由 LLM 错误分配任务,导致图表输出错误 → 调整系统提示后修复。
当数据量大时,可用 聚类与可视化 提炼主题(如新品发布、故障排查),再对主题单独评估,发现薄弱环节。
模型量化技术
量化是生产环境中 成本、速度、质量 权衡的关键。
主要形式
- LLM 量化:将 16 位参数压缩为 8 位或 4 位,大幅降低显存占用与推理延迟,代价是轻微质量下降。
-
向量量化:
-
8 位整数量化 → 体积降至约 1/4,召回率仅下降几个百分点。
- 1 位(二值化)→ 规模缩小 32 倍,但检索质量损失大;常配合“粗检-重排”。
- 套娃嵌入:按信息密度排序维度,部分场景只用前 100–500 维快速检索,必要时再全量重排。
实践建议
- 优先使用 8 位整数量化(适用于 LLM 与嵌入模型)。
- 结合评估体系,监控延迟、吞吐、召回率、幻觉率,验证量化效果。
- 可采用“低精度检索 + 高精度重排”组合策略。
总的来看,量化能够在几乎不损失质量的前提下,显著降低显存和存储消耗,并提升推理与检索速度,是生产环境中最实用的优化手段之一。
成本与响应质量的平衡
RAG 的主要成本来自 LLM 推理 与 向量数据库。
LLM 成本优化
- 使用更小或量化后的模型。
- 限制令牌数量(减少 top-k,裁剪长段落,设置输出上限)。
-
选择合适的部署方式:
-
原型 → 公共推理端点
- 规模化 → 专用推理硬件(更划算且稳定)
向量库成本优化
- 分层存储:热数据放 RAM,冷数据放磁盘/对象存储。
- 动态迁移:根据访问模式自动调整。
- 多租户优化:只在 RAM 中加载当前活跃租户的索引。
核心思路:用实验与监控量化权衡,确保节省成本不以显著质量下降为代价。
时延与质量的权衡
每新增一个质量优化组件,都会增加延迟。取舍取决于场景:
- 电商推荐 → 极低延迟优先
- 医疗诊断 → 高质量优先
优化顺序:
- 核心 LLM:用小模型/量化模型;路由简单任务给小模型;利用缓存。
- 管道组件:剔除低性价比步骤(如价值有限的查询生成器)。
- 检索优化:使用量化嵌入,加快距离计算;或采用数据库分片。
关键原则:持续测量延迟与质量指标,找到项目可接受的平衡点。
安全防护机制
RAG 系统面临独特的安全风险,尤其是知识库中常包含敏感信息。
主要风险:
- 提示攻击诱导模型泄露文档。
- 外部调用时暴露知识片段。
- 向量数据库被入侵。
关键防护:
- 访问控制:基于身份验证与多租户隔离。
- 本地化部署:在安全场景中,完全自建 LLM 与数据库。
- 加密存储:加密文本块,检索后解密;但向量必须明文存放,存在风险。
- 向量攻击防护:通过加噪、变换或降维降低可逆性(会增加复杂度与性能损耗)。
核心结论:敏感信息必须有明确的边界与控制机制。
多模态RAG系统
多模态 RAG 将文本扩展到 图像(甚至音频/视频),检索与提示均可跨模态,输出仍为文本。
关键机制:
- 使用 多模态嵌入器 将文本与图像映射到同一向量空间。
- 使用 语言-视觉模型(VLM) 接收多模态输入并生成文本输出。
在检索流程中:
- 同模空间检索:查询可为文本或图像,统一编码后进行向量搜索。
- 文档格式扩展:PPT、PDF 等转为图像再分块嵌入。
- PDF-RAG 技术:将页面切分成数百小块嵌入,支持细粒度检索,但会显著增加向量规模。
要点:
- 架构升级成本低,仅需替换嵌入器和 LLM。
- 检索更精准,但存储与计算开销增加(可用量化、分层存储、粗检-精排优化)。
- 生态正在快速发展,主流厂商已推出 VLM,多模态嵌入器逐渐成熟。
一句话总结:多模态 RAG 通过“同空间嵌入 + VLM 生成”打通文本与图像,实现更丰富的知识检索与问答。
总结
进入生产环境后,RAG 系统将面临更复杂的挑战:高流量、不确定性错误、潜在安全风险。
本模块的核心收获:
- 评估体系:可观测性、日志、系统级与组件级评估。
- 权衡策略:在质量、成本、延迟之间找到最佳平衡点。
- 安全防护:确保敏感信息的边界。
- 多模态扩展:突破文本限制,支持更广泛的知识格式。
至此,你已具备从 原型到生产 构建 RAG 系统的完整基础。课程希望你不仅掌握方法与技巧,也能带着灵感去探索更复杂、更真实的 AI 应用场景。
Comments
comments powered by Disqus