产品RAG体系建设(归档入口)
本目录用于沉淀「产品研发 RAG 知识库」相关的聊天记录与产物文件,避免散落在仓库各处或需要翻聊天。
仓库地址:
http://gitlab.dajiazhongyi.com/xuweikang/RAG_
目录结构
-
docs/: 主方案文档、Figma 索引、版本同步表 -
inputs/figma/<app_version>/links.txt: 每个版本的 Figma 链接清单 -
inputs/priority_refs/: 人工整理后的高优先参考文档与原始 PDF -
skills/product-rag-maintainer/: 用于后续维护本仓库的 repo 内 skill -
build/<app_version>/: 该版本的规则原子、视图、后续合并产物 -
chats/: 聊天 transcript(jsonl)
已归档(当前)
-
v4.57.3
- Figma links:
inputs/figma/v4.57.3/links.txt - rule_atoms:
build/v4.57.3/rule_atoms.jsonl - rule_view:
build/v4.57.3/rule_view.md - version sync:
docs/version_sync_v4.57.3.yaml
- Figma links:
v2 新增资产
-
scripts/build_rag_assets.py- 统一聚合 build 下各版本 atoms,生成跨版本索引、版本演进和需求预评审知识包
-
scripts/validate_atoms.py- 对 atoms 做全量质量扫描,输出问题清单和汇总报告
-
scripts/extract_testcase_candidates.py- 将 XML 转为结构化 testcase candidates,供模型蒸馏 case atoms
-
scripts/extract_pdf_segments.py- 将 PDF 转为结构化 doc segments,供模型蒸馏 doc atoms
-
scripts/normalize_model_atoms.py- 将模型输出的 atoms 规范化后回写到
build/<version>/
- 将模型输出的 atoms 规范化后回写到
-
scripts/build_final_knowledge_base.py- 从统一索引生成最终可导入的合成知识库
dist/final_kb/
- 从统一索引生成最终可导入的合成知识库
-
scripts/build_synthesized_atoms.py- 从
case_candidates/doc_segments启发式合成更干净的*_model.jsonl
- 从
-
scripts/build_backend_code_knowledge.py- 扫描后台代码仓库,生成接口契约、枚举状态、实现约束三类实现补充知识
-
scripts/build_usable_knowledge_pack.py- 生成一套面向日常问答与预评审的可用知识库包
dist/usable_kb/ - 当前输出为完整主题展开版:不再限制每模块主题数,也不再只抽样少量主事实/补充事实
- 会对
feature_scope、模块标签和标题做归一化,尽量减少版本前缀、容器前缀和脏标题
- 生成一套面向日常问答与预评审的可用知识库包
-
scripts/build_dify_import_pack.py- 把
dist/usable_kb/整理成更适合 Dify / 通用 RAG 平台导入的中颗粒度包dist/dify_import/
- 把
-
scripts/rebuild_version_kb.sh- 针对单版本做一次增量重建
-
scripts/rebuild_all_kb.sh- 对全仓库知识资产做一次全量重建
-
prompts/- 混合式 atoms 生产的模型提示词模板
-
docs/产品研发RAG_总体方案与实施手册.md- 当前项目唯一主方案文档,包含目标、架构图、流程图、运行手册和扩展方案
-
docs/产品研发RAG_增量更新与Dify维护手册.md- 新版本、新专项文档、后台代码更新时的操作手册
-
docs/产品研发RAG_接手说明.md- 未来 AI / 新同学快速接手项目的交接说明
-
docs/产品研发RAG_飞书目录页文案.md- 可直接复制到飞书的目录页说明文案
推荐生产链(v2)
python3 scripts/extract_testcase_candidates.py 4.57.3python3 scripts/extract_pdf_segments.py 4.57.3- 用
prompts/*.md驱动模型生成 atoms python3 scripts/normalize_model_atoms.py <model_output.jsonl> case|doc|rulepython3 scripts/validate_atoms.pypython3 scripts/build_rag_assets.pypython3 scripts/build_final_knowledge_base.py
接入后台代码仓库时
python3 scripts/build_backend_code_knowledge.py --repo /Users/xwk/Downloads/studio-server2python3 scripts/build_final_knowledge_base.pypython3 scripts/build_usable_knowledge_pack.pypython3 scripts/build_dify_import_pack.py
增量更新建议
- 单版本更新:
bash scripts/rebuild_version_kb.sh 4.57.3 /Users/xwk/Downloads/studio-server2
- 全量重建:
bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2
无外部模型时的替代跑法
python3 scripts/extract_testcase_candidates.pypython3 scripts/extract_pdf_segments.pypython3 scripts/build_synthesized_atoms.pypython3 scripts/build_rag_assets.pypython3 scripts/build_final_knowledge_base.py
关键产物
-
dist/rag/- 统一知识索引层产物
-
dist/final_kb/- 最终可导入的合成知识库
- 当前结构:
00_导入说明.md01_知识库设计原则.md02_培训文档主事实库.md03_培训文档保留项.md04_Figma与测试补充库.md05_版本演进.md06_需求预评审.md07_模块辅助索引.md08_后台代码实现补充库.md
-
dist/usable_kb/- 面向实际使用重新整理的一套知识库包
- 当前结构:
00_导入说明.md01_知识库使用规则.md02_版本变更总览.md03_需求预评审执行指南.md04_后台实现导读.md-
10_*到17_*模块文件
-
dist/dify_import/- 面向 Dify / 通用 RAG 平台的中颗粒度导入包
- 当前结构:
00_导入说明.md01_使用规则.md02_版本变更总览.md03_需求预评审执行指南.md04_后台实现导读.md09_AUTH_高优先参考_医师认证流程.md-
10_AUTH_主知识库.md到17_GENERAL_主知识库.md
-
dist/backend_code/- 后台实现补充知识
- 当前结构:
code_atoms.jsonl01_接口契约.md02_枚举与状态.md03_实现约束.md04_模块映射.md
-
dist/quality/- atoms 质量报告与问题明细
聊天记录
- 本次对话 transcript:
chats/e16793ce-e4b0-4497-8cda-b792d10c1eeb.jsonl
未来接手入口
按顺序看:
docs/产品研发RAG_接手说明.mddocs/产品研发RAG_增量更新与Dify维护手册.mddocs/产品研发RAG_飞书目录页文案.mdskills/product-rag-maintainer/SKILL.md