开发者类

搭建 RAG 知识库

规划文档采集、切分、检索、回答和评测流程,避免只停留在 Demo。

适合谁

AI 应用开发者、企业知识库负责人、技术产品经理。

最终产出

得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。

流程速览

最近核查: 2026-05-13

复杂度: 5 步流程
资料来源: 2 核查提示: AI 输出只能作为草稿,发布前需要人工确认事实、版权、平台规则和品牌表达。
输入材料

文档来源、权限规则、更新频率和问题样例。 标准答案、拒答边界和引用格式要求。

工具链

LlamaIndex -> Cloudflare Workers AI / Vectorize -> ChatGPT

最终产出

得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。

人工复核

回答能引用来源,不知道时能拒答。 权限隔离不会把私密资料暴露给错误用户。

  1. 01 定义知识边界
  2. 02 清洗和切分文档
  3. 03 建立检索链路
  4. 04 构建评测集
  5. 05 上线监控和复盘

输入材料清单

  • 文档来源、权限规则、更新频率和问题样例。
  • 标准答案、拒答边界和引用格式要求。
  • 评测集:至少 20 个真实问题和人工认可答案。

人工复核 checklist

  • 回答能引用来源,不知道时能拒答。
  • 权限隔离不会把私密资料暴露给错误用户。
  • 检索失败、过期文档和冲突答案有处理策略。

常见失败点

  • 只看生成效果,不做检索评测。
  • 把所有文档混在一个索引里,破坏权限边界。
  • 答案没有来源,无法人工追溯。

最终产出模板

输出表格:问题 / 期望来源 / 标准答案 / 检索结果 / 生成答案 / 通过与否 / 修复建议。

推荐工具组合

工具按流程角色组织,未入库工具先以文本展示,后续可补充到工具库。

1

LlamaIndex

RAG 编排

组织文档加载、索引、查询引擎和评测流程。

2

Cloudflare Workers AI / Vectorize

部署与检索

在 Cloudflare 架构内承载模型调用和向量检索能力。

3

ChatGPT

评测样例

生成问答样例和答案核查清单。

完整流程

AI 输出作为草稿使用,事实、版权、平台规范和商业承诺都需要人工复核。

  1. 第 1 步

    定义知识边界

    明确哪些文档进入知识库、哪些敏感内容不能进入、谁负责更新。

  2. 第 2 步

    清洗和切分文档

    按标题、段落、表格和 FAQ 拆分,保留来源 URL 和更新时间。

  3. 第 3 步

    建立检索链路

    完成索引、查询、召回和回答拼接,要求回答带来源。

    可复用提示词
    请根据以下文档结构设计 RAG chunk 策略、metadata 字段和召回测试问题:{文档说明}
  4. 第 4 步

    构建评测集

    准备高频问题、边界问题、无答案问题和错误答案样例。

  5. 第 5 步

    上线监控和复盘

    记录无答案、幻觉、低相关召回和用户反馈,定期更新知识库。

常见问题

这个流程可以直接自动发布吗?

不建议。AI 适合生成草稿、变体和检查清单,最终发布前仍需要人工确认事实、素材版权和平台规则。

工具不完全一样怎么办?

优先保留流程角色:构思、生成、编辑、审核和复盘。具体工具可以按团队已有账号替换。

资料来源

最近核查: 2026-05-13

  • Introduction to RAG LlamaIndex Docs · 用于核对 RAG 的加载、索引、检索和生成链路。
  • Build Agents on Cloudflare Cloudflare Docs · 用于核对 Cloudflare Agents SDK 基于 Durable Objects、状态、调度和工具调用的能力。

核查提示

  • AI 输出只能作为草稿,发布前需要人工确认事实、版权、平台规则和品牌表达。
  • 工具能力、套餐和额度可能变化,页面只记录流程角色,不把价格或额度写成固定事实。