产品研发RAG_增量更新与Dify维护手册.md
5.66 KB
产品研发 RAG 增量更新与 Dify 维护手册
1. 适用场景
这份手册只回答一件事:
- 新版本来了,怎么最快把知识库更新到可用状态
适用于下面几类增量:
- 新迭代测试用例
- 新培训文档 PDF
- 新 Figma 规则
- 新的专项高优先参考文档
- 后台代码仓库更新
2. 新文件应该放哪里
培训文档
- 放到
pdf/ - 命名尽量包含版本号或主题
测试用例
- 放到
testCase/ - 保持原始 XML
Figma
- 链接放到
inputs/figma/<app_version>/links.txt - 相关 rule atoms 仍落到
build/<app_version>/rule_atoms.jsonl
高优先参考文档
- 原始文件放到
inputs/priority_refs/ - 如果是 PDF,建议额外整理出一份 Markdown 放在同目录
- 命名建议:
<序号>_<模块>_高优先参考_<主题>.md - 例如:
09_AUTH_高优先参考_医师认证流程.md
后台代码仓库
- 不必复制到项目内
- 直接保留本地路径,运行脚本时通过
--repo传入
3. 两种更新模式
3.1 只更新一个新版本
适用:
- 新迭代上线
- 本次只新增一个版本目录
执行:
bash scripts/rebuild_version_kb.sh 4.57.3 /Users/xwk/Downloads/studio-server2
如果这次没有后台代码变化:
bash scripts/rebuild_version_kb.sh 4.57.3
3.2 全量重建
适用:
- 脚本逻辑改了
- 历史知识整理规则改了
- 需要统一重刷所有产物
执行:
bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2
如果不重刷后台代码:
bash scripts/rebuild_all_kb.sh
4. 更新后要看哪些产物
人工审阅
dist/final_kb/dist/usable_kb/dist/dify_import/
后台实现补充
dist/backend_code/
质量报告
dist/quality/atom_quality_summary.md
4.1 更新后的同步动作
每次版本更新完成后,除了本地产物和 Dify,还要同步团队阅读入口。
飞书文档同步
建议至少同步下面三份主文档:
docs/产品研发RAG_总体方案与实施手册.mddocs/产品研发RAG_增量更新与Dify维护手册.mddocs/产品研发RAG_接手说明.md
如果这次版本有明显规则变化,还要同步:
dist/dify_import/02_版本变更总览.md
如果这次新增了专项高优先参考,还要同步:
- 对应
inputs/priority_refs/*.md
最小提醒清单
每次增量更新后至少检查:
- 本地产物已重建
- Dify 知识库已替换受影响文件
- 飞书主文档已同步到最新
5. Dify 中怎么更新
当前推荐是 3 个知识库:
产品主知识库
上传这些文件:
dist/dify_import/10_AUTH_主知识库.mddist/dify_import/11_INCOME_主知识库.mddist/dify_import/12_INQUIRY_主知识库.mddist/dify_import/13_CLINIC_主知识库.mddist/dify_import/14_PATIENT_主知识库.mddist/dify_import/15_NOTIFICATION_主知识库.mddist/dify_import/16_BACKSTAGE_主知识库.mddist/dify_import/17_GENERAL_主知识库.mddist/dify_import/09_AUTH_高优先参考_医师认证流程.md
更新策略:
- 哪个模块变了,就替换对应模块主文件
- 哪个专项高优先参考变了,就替换对应高优先参考文件
版本与预评审知识库
上传这些文件:
dist/dify_import/02_版本变更总览.mddist/dify_import/03_需求预评审执行指南.md
更新策略:
- 有新版本后,至少替换
02_版本变更总览.md - 如果预评审方法没变,
03_需求预评审执行指南.md不必每次替换
后台实现补充知识库
上传这些文件:
dist/backend_code/01_接口契约.mddist/backend_code/02_枚举与状态.mddist/backend_code/03_实现约束.mddist/backend_code/05_业务实现主题.md
更新策略:
- 只有后台代码变了,才需要替换这 4 个文件
6. Dify 参数经验
知识库文档分段
- 分段标识符:
\n\n - 分段最大长度:
1200 - 分段重叠长度:
100 - 文本预处理:只勾选“替换掉连续的空格、换行符和制表符”
- 不开启 Q&A 分段
索引与检索
- 索引方式:
高质量 - 检索方式:
混合检索 - Top K:
5 - Score 阈值:先不开
- Rerank:能开就开
Embedding
当前实测可用:
text-embedding-v4
7. 每次更新后的最小验收
产品主知识库
至少测:
认证流程有哪些状态和规则?患者购药有哪些产品规则?
版本与预评审知识库
至少测:
问诊相关有哪些版本变更?新增一个问诊需求,预评审要关注什么?
后台实现补充知识库
至少测:
患者购药会涉及哪些后台实现约束?这个需求可能影响哪些接口和状态?
8. 更新判断表
只新增培训文档 / 测试用例 / Figma
- 跑
rebuild_version_kb.sh <version> - 替换产品主知识库对应模块文件
- 替换版本与预评审知识库中的
02_版本变更总览.md - 同步更新飞书中的主文档和版本变更总览
新增专项高优先参考
- 原始文件放
inputs/priority_refs/ - 整理出 Markdown 放同目录
- 跑
python3 scripts/build_dify_import_pack.py - 上传对应高优先参考文件到产品主知识库
- 如需团队可读,也同步到飞书专项文档目录
后台代码更新
- 跑带
backend_repo的版本重建或全量重建 - 替换后台实现补充知识库 4 个文件
- 如实现约束变化明显,同步更新飞书主文档中的实现说明
9. 原则
- 底层知识资产是一套
- Dify 中按用途拆成多个知识库视图
- 培训文档仍是产品主事实源
- 高优先参考只在培训文档缺失专项细节时提升回答质量