[源视频][1]

根据视频字幕生成,是给不想看视频的人准备的速读文档

简介

本部分聚焦 如何将 RAG 系统真正投入生产。你将学习部署前的准备步骤,并回顾多种系统评估策略:既可针对单个组件,也可面向整体系统,同时需在运行过程中持续观测性能表现。课程还特别强调 日志记录 的重要性,它不仅能追踪调用,还能帮助定位低质量响应的根源。

随后,你会接触几项关键实践:

  • 从真实流量中构建 自定义数据集,用客户数据测试系统更新。
  • 在设计与调优中处理常见权衡,如成本、内存、存储与延迟,并学习在不显著降低质量的前提下对齐需求。
  • 探索前沿方法,将 多模态数据(图像、PDF 等)整合进知识库,让系统具备处理非文本信息的能力。

本模块旨在帮助你掌握 从原型走向生产的关键实践:建立评估与监控体系,权衡成本、延迟与质量,并通过量化、安全机制和多模态扩展不断优化 RAG 系统。

RAG 评估策略

部署 RAG 的第一步是搭建 可观测性系统,并建立系统化的评估方法。

可观测性与指标收集

系统需同时追踪:

  • 性能指标:延迟、吞吐量、内存、计算资源。
  • 质量指标:用户满意度、回复准确性、检索器召回率。

除聚合统计外,还应保存详细日志,以便追踪单个提示在管道中的流转,定位低效或错误响应。

评估与实验

系统应支持 A/B 测试,便于验证模型切换、提示修改或检索器调整的效果。

评估维度:

  • 范围

  • 系统级评估 → 把握整体表现

  • 组件级评估 → 定位瓶颈(如检索器或 LLM)
  • 方法

  • 基于代码 → 自动化、低成本(吞吐量、单元测试)

  • 人工反馈 → 捕捉代码遗漏的问题(用户点赞/点踩、调查问卷)
  • LLM 作为裁判 → 成本低于人工、灵活,但需防止偏见(如判定“相关/不相关”)

最佳做法是 多方法结合
性能监控 + 人工标注测试集 + LLM 评估,在低/高成本间取得平衡,同时兼顾系统整体与组件质量。

日志与监控

课程推荐借助 现代可观测性平台,而非完全自建。

Phoenix(Arise 开源工具)为例:

  • 追踪:记录提示在 RAG 管道中的完整路径(检索、重排、拼接提示、生成响应),并标注延迟。
  • 指标收集:与 RaaS 库集成,计算检索相关性、验证引用准确性。
  • 实验:支持提示迭代与 A/B 测试。
  • 聚合监控:提供日报与趋势统计,如检索准确率、幻觉率。

但 Phoenix 不覆盖所有需求,如 GPU/内存监控,仍需 Datadog、Grafana 等传统工具。

良好的可观测性管道能形成 改进飞轮
通过生产流量发现问题 → 在日志和自定义数据集上验证改动 → 优化 → 回到生产环境验证。

定制化评估体系

核心方法是:把 真实用户提示 整理为 自定义数据集,用于回放与对比。

数据集粒度可分:

  • 最小集:仅包含用户输入与最终回复,适合端到端评估。
  • 组件集:额外存储检索结果、重排前后结果、查询重写等,便于诊断具体问题。

实践案例:

  • 在客服场景中,日志分析可能揭示“退款”问题表现良好,而“物流延迟”表现差 → 原因是检索器缺乏相关文档。
  • 在支持文本转图像/图表的系统中,路由 LLM 错误分配任务,导致图表输出错误 → 调整系统提示后修复。

当数据量大时,可用 聚类与可视化 提炼主题(如新品发布、故障排查),再对主题单独评估,发现薄弱环节。

模型量化技术

量化是生产环境中 成本、速度、质量 权衡的关键。

主要形式

  • LLM 量化:将 16 位参数压缩为 8 位或 4 位,大幅降低显存占用与推理延迟,代价是轻微质量下降。
  • 向量量化

  • 8 位整数量化 → 体积降至约 1/4,召回率仅下降几个百分点。

  • 1 位(二值化)→ 规模缩小 32 倍,但检索质量损失大;常配合“粗检-重排”。
  • 套娃嵌入:按信息密度排序维度,部分场景只用前 100–500 维快速检索,必要时再全量重排。

实践建议

  • 优先使用 8 位整数量化(适用于 LLM 与嵌入模型)。
  • 结合评估体系,监控延迟、吞吐、召回率、幻觉率,验证量化效果。
  • 可采用“低精度检索 + 高精度重排”组合策略。

总的来看,量化能够在几乎不损失质量的前提下,显著降低显存和存储消耗,并提升推理与检索速度,是生产环境中最实用的优化手段之一。

成本与响应质量的平衡

RAG 的主要成本来自 LLM 推理向量数据库

LLM 成本优化

  • 使用更小或量化后的模型。
  • 限制令牌数量(减少 top-k,裁剪长段落,设置输出上限)。
  • 选择合适的部署方式:

  • 原型 → 公共推理端点

  • 规模化 → 专用推理硬件(更划算且稳定)

向量库成本优化

  • 分层存储:热数据放 RAM,冷数据放磁盘/对象存储。
  • 动态迁移:根据访问模式自动调整。
  • 多租户优化:只在 RAM 中加载当前活跃租户的索引。

核心思路:用实验与监控量化权衡,确保节省成本不以显著质量下降为代价。

时延与质量的权衡

每新增一个质量优化组件,都会增加延迟。取舍取决于场景:

  • 电商推荐 → 极低延迟优先
  • 医疗诊断 → 高质量优先

优化顺序:

  1. 核心 LLM:用小模型/量化模型;路由简单任务给小模型;利用缓存。
  2. 管道组件:剔除低性价比步骤(如价值有限的查询生成器)。
  3. 检索优化:使用量化嵌入,加快距离计算;或采用数据库分片。

关键原则:持续测量延迟与质量指标,找到项目可接受的平衡点

安全防护机制

RAG 系统面临独特的安全风险,尤其是知识库中常包含敏感信息。

主要风险:

  • 提示攻击诱导模型泄露文档。
  • 外部调用时暴露知识片段。
  • 向量数据库被入侵。

关键防护:

  • 访问控制:基于身份验证与多租户隔离。
  • 本地化部署:在安全场景中,完全自建 LLM 与数据库。
  • 加密存储:加密文本块,检索后解密;但向量必须明文存放,存在风险。
  • 向量攻击防护:通过加噪、变换或降维降低可逆性(会增加复杂度与性能损耗)。

核心结论:敏感信息必须有明确的边界与控制机制

多模态RAG系统

多模态 RAG 将文本扩展到 图像(甚至音频/视频),检索与提示均可跨模态,输出仍为文本。

关键机制:

  • 使用 多模态嵌入器 将文本与图像映射到同一向量空间。
  • 使用 语言-视觉模型(VLM) 接收多模态输入并生成文本输出。

在检索流程中:

  • 同模空间检索:查询可为文本或图像,统一编码后进行向量搜索。
  • 文档格式扩展:PPT、PDF 等转为图像再分块嵌入。
  • PDF-RAG 技术:将页面切分成数百小块嵌入,支持细粒度检索,但会显著增加向量规模。

要点:

  • 架构升级成本低,仅需替换嵌入器和 LLM。
  • 检索更精准,但存储与计算开销增加(可用量化、分层存储、粗检-精排优化)。
  • 生态正在快速发展,主流厂商已推出 VLM,多模态嵌入器逐渐成熟。

一句话总结:多模态 RAG 通过“同空间嵌入 + VLM 生成”打通文本与图像,实现更丰富的知识检索与问答

总结

进入生产环境后,RAG 系统将面临更复杂的挑战:高流量、不确定性错误、潜在安全风险。
本模块的核心收获:

  • 评估体系:可观测性、日志、系统级与组件级评估。
  • 权衡策略:在质量、成本、延迟之间找到最佳平衡点。
  • 安全防护:确保敏感信息的边界。
  • 多模态扩展:突破文本限制,支持更广泛的知识格式。

至此,你已具备从 原型到生产 构建 RAG 系统的完整基础。课程希望你不仅掌握方法与技巧,也能带着灵感去探索更复杂、更真实的 AI 应用场景。


Comments

comments powered by Disqus