开发者类
搭建 RAG 知识库
规划文档采集、切分、检索、回答和评测流程,避免只停留在 Demo。适合谁
AI 应用开发者、企业知识库负责人、技术产品经理。
最终产出
得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。
流程速览
最近核查: 2026-05-13
资料来源: 2 核查提示: AI 输出只能作为草稿,发布前需要人工确认事实、版权、平台规则和品牌表达。
输入材料
文档来源、权限规则、更新频率和问题样例。 标准答案、拒答边界和引用格式要求。
工具链
LlamaIndex -> Cloudflare Workers AI / Vectorize -> ChatGPT
最终产出
得到 RAG 架构清单、数据处理流程、评测问题和上线前检查项。
人工复核
回答能引用来源,不知道时能拒答。 权限隔离不会把私密资料暴露给错误用户。
- 01 定义知识边界
- 02 清洗和切分文档
- 03 建立检索链路
- 04 构建评测集
- 05 上线监控和复盘
输入材料清单
- 文档来源、权限规则、更新频率和问题样例。
- 标准答案、拒答边界和引用格式要求。
- 评测集:至少 20 个真实问题和人工认可答案。
人工复核 checklist
- 回答能引用来源,不知道时能拒答。
- 权限隔离不会把私密资料暴露给错误用户。
- 检索失败、过期文档和冲突答案有处理策略。
常见失败点
- 只看生成效果,不做检索评测。
- 把所有文档混在一个索引里,破坏权限边界。
- 答案没有来源,无法人工追溯。
最终产出模板
输出表格:问题 / 期望来源 / 标准答案 / 检索结果 / 生成答案 / 通过与否 / 修复建议。
推荐工具组合
工具按流程角色组织,未入库工具先以文本展示,后续可补充到工具库。
1
LlamaIndex
RAG 编排
组织文档加载、索引、查询引擎和评测流程。
2
Cloudflare Workers AI / Vectorize
部署与检索
在 Cloudflare 架构内承载模型调用和向量检索能力。
3
完整流程
AI 输出作为草稿使用,事实、版权、平台规范和商业承诺都需要人工复核。
- 第 1 步
定义知识边界
明确哪些文档进入知识库、哪些敏感内容不能进入、谁负责更新。
- 第 2 步
清洗和切分文档
按标题、段落、表格和 FAQ 拆分,保留来源 URL 和更新时间。
- 第 3 步
建立检索链路
完成索引、查询、召回和回答拼接,要求回答带来源。
可复用提示词请根据以下文档结构设计 RAG chunk 策略、metadata 字段和召回测试问题:{文档说明} - 第 4 步
构建评测集
准备高频问题、边界问题、无答案问题和错误答案样例。
- 第 5 步
上线监控和复盘
记录无答案、幻觉、低相关召回和用户反馈,定期更新知识库。
常见问题
这个流程可以直接自动发布吗?
不建议。AI 适合生成草稿、变体和检查清单,最终发布前仍需要人工确认事实、素材版权和平台规则。
工具不完全一样怎么办?
优先保留流程角色:构思、生成、编辑、审核和复盘。具体工具可以按团队已有账号替换。
资料来源
最近核查: 2026-05-13
- Introduction to RAG LlamaIndex Docs · 用于核对 RAG 的加载、索引、检索和生成链路。
- Build Agents on Cloudflare Cloudflare Docs · 用于核对 Cloudflare Agents SDK 基于 Durable Objects、状态、调度和工具调用的能力。
核查提示
- AI 输出只能作为草稿,发布前需要人工确认事实、版权、平台规则和品牌表达。
- 工具能力、套餐和额度可能变化,页面只记录流程角色,不把价格或额度写成固定事实。