产品研发RAG_增量更新与Dify维护手册.md 6.5 KB

产品研发 RAG 增量更新与 Dify 维护手册

1. 适用场景

这份手册只回答一件事:

  • 新版本来了,怎么最快把知识库更新到可用状态

适用于下面几类增量:

  • 新迭代测试用例
  • 新培训文档 PDF
  • 新 Figma 规则
  • 新的专项高优先参考文档
  • 后台代码仓库更新

2. 新文件应该放哪里

培训文档

  • 放到 pdf/
  • 命名尽量包含版本号或主题

测试用例

  • 放到 testCase/
  • 保持原始 XML

Figma

  • 链接放到 inputs/figma/<app_version>/links.txt
  • 相关 rule atoms 仍落到 build/<app_version>/rule_atoms.jsonl

高优先参考文档

  • 原始文件放到 inputs/priority_refs/
  • 如果是 PDF,建议额外整理出一份 Markdown 放在同目录
  • 命名建议:<序号>_<模块>_高优先参考_<主题>.md
  • 例如:09_AUTH_高优先参考_医师认证流程.md

后台代码仓库

  • 不必复制到项目内
  • 直接保留本地路径,运行脚本时通过 --repo 传入

3. 两种更新模式

3.1 只更新一个新版本

适用:

  • 新迭代上线
  • 本次只新增一个版本目录

执行:

bash scripts/rebuild_version_kb.sh 4.57.3 /Users/xwk/Downloads/studio-server2

如果这次没有后台代码变化:

bash scripts/rebuild_version_kb.sh 4.57.3

3.2 全量重建

适用:

  • 脚本逻辑改了
  • 历史知识整理规则改了
  • 需要统一重刷所有产物

执行:

bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2

如果不重刷后台代码:

bash scripts/rebuild_all_kb.sh

4. 更新后要看哪些产物

人工审阅

  • dist/final_kb/
  • dist/usable_kb/
  • dist/dify_import/

后台实现补充

  • dist/backend_code/

质量报告

  • dist/quality/atom_quality_summary.md

4.1 更新后的同步动作

每次版本更新完成后,除了本地产物和 Dify,还要同步团队阅读入口。

飞书文档同步

建议至少同步下面三份主文档:

  • docs/产品研发RAG_总体方案与实施手册.md
  • docs/产品研发RAG_增量更新与Dify维护手册.md
  • docs/产品研发RAG_接手说明.md

如果这次版本有明显规则变化,还要同步:

  • dist/dify_import/02_版本变更总览.md

如果这次新增了专项高优先参考,还要同步:

  • 对应 inputs/priority_refs/*.md

最小提醒清单

每次增量更新后至少检查:

  • 本地产物已重建
  • Dify 知识库已替换受影响文件
  • 飞书主文档已同步到最新

5. Dify 中怎么更新

当前推荐是 3 个知识库:

产品主知识库

上传这些文件:

  • dist/dify_import/10_AUTH_主知识库.md
  • dist/dify_import/11_INCOME_主知识库.md
  • dist/dify_import/12_INQUIRY_主知识库.md
  • dist/dify_import/13_CLINIC_主知识库.md
  • dist/dify_import/14_PATIENT_主知识库.md
  • dist/dify_import/15_NOTIFICATION_主知识库.md
  • dist/dify_import/16_BACKSTAGE_主知识库.md
  • dist/dify_import/17_GENERAL_主知识库.md
  • dist/dify_import/09_AUTH_高优先参考_医师认证流程.md

更新策略:

  • 哪个模块变了,就替换对应模块主文件
  • 哪个专项高优先参考变了,就替换对应高优先参考文件

版本与预评审知识库

上传这些文件:

  • dist/dify_import/02_版本变更总览.md
  • dist/dify_import/03_需求预评审执行指南.md

更新策略:

  • 有新版本后,至少替换 02_版本变更总览.md
  • 如果预评审方法没变,03_需求预评审执行指南.md 不必每次替换

后台实现补充知识库

上传这些文件:

  • dist/backend_code/01_接口契约.md
  • dist/backend_code/02_枚举与状态.md
  • dist/backend_code/03_实现约束.md
  • dist/backend_code/05_业务实现主题.md

更新策略:

  • 只有后台代码变了,才需要替换这 4 个文件

6. Dify 参数经验

知识库文档分段

  • 分段标识符:\n\n
  • 分段最大长度:1200
  • 分段重叠长度:100
  • 文本预处理:只勾选“替换掉连续的空格、换行符和制表符”
  • 不开启 Q&A 分段

索引与检索

  • 索引方式:高质量
  • 检索方式:混合检索
  • Top K:5
  • Score 阈值:先不开
  • Rerank:能开就开

Embedding

当前实测可用:

  • text-embedding-v4

7. 每次更新后的最小验收

先做结构验收:

  • 检查 dist/usable_kb/dist/dify_import/ 的模块主文件是否已重建
  • 检查模块主文件是否为完整主题展开版,而不是旧的少量摘要主题
  • 如果本次改了主题归一化或标题提炼规则,抽查 AUTHINCOME 两个模块标题是否变得更稳定、更可检索

产品主知识库

至少测:

  • 认证流程有哪些状态和规则?
  • 患者购药有哪些产品规则?

版本与预评审知识库

至少测:

  • 问诊相关有哪些版本变更?
  • 新增一个问诊需求,预评审要关注什么?

后台实现补充知识库

至少测:

  • 患者购药会涉及哪些后台实现约束?
  • 这个需求可能影响哪些接口和状态?

8. 更新判断表

只新增培训文档 / 测试用例 / Figma

  • rebuild_version_kb.sh <version>
  • 替换产品主知识库对应模块文件
  • 替换版本与预评审知识库中的 02_版本变更总览.md
  • 同步更新飞书中的主文档和版本变更总览

新增专项高优先参考

  • 原始文件放 inputs/priority_refs/
  • 整理出 Markdown 放同目录
  • python3 scripts/build_dify_import_pack.py
  • 上传对应高优先参考文件到产品主知识库
  • 如需团队可读,也同步到飞书专项文档目录

后台代码更新

  • 跑带 backend_repo 的版本重建或全量重建
  • 替换后台实现补充知识库 4 个文件
  • 如实现约束变化明显,同步更新飞书主文档中的实现说明

修改生成脚本 / 导出规则 / 标题归一化逻辑

  • 重跑受影响的构建脚本,至少包含 python3 scripts/build_usable_knowledge_pack.py
  • dist/dify_import/ 受影响,再跑 python3 scripts/build_dify_import_pack.py
  • 同步更新:
    • docs/产品研发RAG_总体方案与实施手册.md
    • docs/产品研发RAG_增量更新与Dify维护手册.md
    • docs/产品研发RAG_接手说明.md
    • skills/product-rag-maintainer/SKILL.md
  • 这一步默认必做,不需要额外提醒

9. 原则

  • 底层知识资产是一套
  • Dify 中按用途拆成多个知识库视图
  • 培训文档仍是产品主事实源
  • 高优先参考只在培训文档缺失专项细节时提升回答质量