开发者类

搭建 RAG 知识库

规划文档采集、切分、检索、回答和评测流程，避免只停留在 Demo。

适合谁

AI 应用开发者、企业知识库负责人、技术产品经理。

最终产出

得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。

流程速览

最近核查: 2026-05-13

复杂度: 5 步流程

资料来源: 2 核查提示: AI 输出只能作为草稿，发布前需要人工确认事实、版权、平台规则和品牌表达。

输入材料

文档来源、权限规则、更新频率和问题样例。标准答案、拒答边界和引用格式要求。

工具链

LlamaIndex -> Cloudflare Workers AI / Vectorize -> ChatGPT

最终产出

得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。

人工复核

回答能引用来源，不知道时能拒答。权限隔离不会把私密资料暴露给错误用户。

01 定义知识边界
02 清洗和切分文档
03 建立检索链路
04 构建评测集
05 上线监控和复盘

输入材料清单

文档来源、权限规则、更新频率和问题样例。
标准答案、拒答边界和引用格式要求。
评测集：至少 20 个真实问题和人工认可答案。

人工复核 checklist

回答能引用来源，不知道时能拒答。
权限隔离不会把私密资料暴露给错误用户。
检索失败、过期文档和冲突答案有处理策略。

常见失败点

只看生成效果，不做检索评测。
把所有文档混在一个索引里，破坏权限边界。
答案没有来源，无法人工追溯。

最终产出模板

输出表格：问题 / 期望来源 / 标准答案 / 检索结果 / 生成答案 / 通过与否 / 修复建议。

完整流程

AI 输出作为草稿使用，事实、版权、平台规范和商业承诺都需要人工复核。

第 1 步

定义知识边界

明确哪些文档进入知识库、哪些敏感内容不能进入、谁负责更新。
第 2 步

清洗和切分文档

按标题、段落、表格和 FAQ 拆分，保留来源 URL 和更新时间。
第 3 步
建立检索链路

完成索引、查询、召回和回答拼接，要求回答带来源。
可复用提示词
```
请根据以下文档结构设计 RAG chunk 策略、metadata 字段和召回测试问题：{文档说明}
```
第 4 步

构建评测集

准备高频问题、边界问题、无答案问题和错误答案样例。
第 5 步

上线监控和复盘

记录无答案、幻觉、低相关召回和用户反馈，定期更新知识库。

常见问题

这个流程可以直接自动发布吗？

不建议。AI 适合生成草稿、变体和检查清单，最终发布前仍需要人工确认事实、素材版权和平台规则。

工具不完全一样怎么办？

优先保留流程角色：构思、生成、编辑、审核和复盘。具体工具可以按团队已有账号替换。

资料来源

最近核查: 2026-05-13

Introduction to RAG LlamaIndex Docs · 用于核对 RAG 的加载、索引、检索和生成链路。
Build Agents on Cloudflare Cloudflare Docs · 用于核对 Cloudflare Agents SDK 基于 Durable Objects、状态、调度和工具调用的能力。

核查提示

AI 输出只能作为草稿，发布前需要人工确认事实、版权、平台规则和品牌表达。
工具能力、套餐和额度可能变化，页面只记录流程角色，不把价格或额度写成固定事实。

适合谁

最终产出

流程速览

输入材料清单

人工复核 checklist

常见失败点

最终产出模板

推荐工具组合

LlamaIndex

Cloudflare Workers AI / Vectorize

ChatGPT

完整流程

定义知识边界

清洗和切分文档

建立检索链路

构建评测集

上线监控和复盘

常见问题

这个流程可以直接自动发布吗？

工具不完全一样怎么办？

资料来源

核查提示