R

RAG_

问诊收入域RAG

skipped 15657c44 知识库蒸馏方案调整 · by 鲲鹏

产品RAG体系建设(归档入口)

本目录用于沉淀「产品研发 RAG 知识库」相关的聊天记录与产物文件,避免散落在仓库各处或需要翻聊天。

仓库地址:

  • http://gitlab.dajiazhongyi.com/xuweikang/RAG_

目录结构

  • docs/: 主方案文档、Figma 索引、版本同步表
  • inputs/figma/<app_version>/links.txt: 每个版本的 Figma 链接清单
  • inputs/priority_refs/: 人工整理后的高优先参考文档与原始 PDF
  • skills/product-rag-maintainer/: 用于后续维护本仓库的 repo 内 skill
  • build/<app_version>/: 该版本的规则原子、视图、后续合并产物
  • chats/: 聊天 transcript(jsonl)

已归档(当前)

  • v4.57.3
    • Figma links: inputs/figma/v4.57.3/links.txt
    • rule_atoms: build/v4.57.3/rule_atoms.jsonl
    • rule_view: build/v4.57.3/rule_view.md
    • version sync: docs/version_sync_v4.57.3.yaml

v2 新增资产

  • scripts/build_rag_assets.py
    • 统一聚合 build 下各版本 atoms,生成跨版本索引、版本演进和需求预评审知识包
  • scripts/validate_atoms.py
    • 对 atoms 做全量质量扫描,输出问题清单和汇总报告
  • scripts/extract_testcase_candidates.py
    • 将 XML 转为结构化 testcase candidates,供模型蒸馏 case atoms
  • scripts/extract_pdf_segments.py
    • 将 PDF 转为结构化 doc segments,供模型蒸馏 doc atoms
  • scripts/normalize_model_atoms.py
    • 将模型输出的 atoms 规范化后回写到 build/<version>/
  • scripts/build_final_knowledge_base.py
    • 从统一索引生成最终可导入的合成知识库 dist/final_kb/
  • scripts/build_synthesized_atoms.py
    • case_candidates/doc_segments 启发式合成更干净的 *_model.jsonl
  • scripts/build_backend_code_knowledge.py
    • 扫描后台代码仓库,生成接口契约、枚举状态、实现约束三类实现补充知识
  • scripts/build_usable_knowledge_pack.py
    • 生成一套面向日常问答与预评审的可用知识库包 dist/usable_kb/
    • 当前输出为完整主题展开版:不再限制每模块主题数,也不再只抽样少量主事实/补充事实
    • 会对 feature_scope、模块标签和标题做归一化,尽量减少版本前缀、容器前缀和脏标题
  • scripts/build_dify_import_pack.py
    • dist/usable_kb/ 整理成更适合 Dify / 通用 RAG 平台导入的中颗粒度包 dist/dify_import/
  • scripts/rebuild_version_kb.sh
    • 针对单版本做一次增量重建
  • scripts/rebuild_all_kb.sh
    • 对全仓库知识资产做一次全量重建
  • prompts/
    • 混合式 atoms 生产的模型提示词模板
  • docs/产品研发RAG_总体方案与实施手册.md
    • 当前项目唯一主方案文档,包含目标、架构图、流程图、运行手册和扩展方案
  • docs/产品研发RAG_增量更新与Dify维护手册.md
    • 新版本、新专项文档、后台代码更新时的操作手册
  • docs/产品研发RAG_接手说明.md
    • 未来 AI / 新同学快速接手项目的交接说明
  • docs/产品研发RAG_飞书目录页文案.md
    • 可直接复制到飞书的目录页说明文案

推荐生产链(v2)

  1. python3 scripts/extract_testcase_candidates.py 4.57.3
  2. python3 scripts/extract_pdf_segments.py 4.57.3
  3. prompts/*.md 驱动模型生成 atoms
  4. python3 scripts/normalize_model_atoms.py <model_output.jsonl> case|doc|rule
  5. python3 scripts/validate_atoms.py
  6. python3 scripts/build_rag_assets.py
  7. python3 scripts/build_final_knowledge_base.py

接入后台代码仓库时

  1. python3 scripts/build_backend_code_knowledge.py --repo /Users/xwk/Downloads/studio-server2
  2. python3 scripts/build_final_knowledge_base.py
  3. python3 scripts/build_usable_knowledge_pack.py
  4. python3 scripts/build_dify_import_pack.py

增量更新建议

  • 单版本更新:
    • bash scripts/rebuild_version_kb.sh 4.57.3 /Users/xwk/Downloads/studio-server2
  • 全量重建:
    • bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2

无外部模型时的替代跑法

  1. python3 scripts/extract_testcase_candidates.py
  2. python3 scripts/extract_pdf_segments.py
  3. python3 scripts/build_synthesized_atoms.py
  4. python3 scripts/build_rag_assets.py
  5. python3 scripts/build_final_knowledge_base.py

关键产物

  • dist/rag/
    • 统一知识索引层产物
  • dist/final_kb/
    • 最终可导入的合成知识库
    • 当前结构:
    • 00_导入说明.md
    • 01_知识库设计原则.md
    • 02_培训文档主事实库.md
    • 03_培训文档保留项.md
    • 04_Figma与测试补充库.md
    • 05_版本演进.md
    • 06_需求预评审.md
    • 07_模块辅助索引.md
    • 08_后台代码实现补充库.md
  • dist/usable_kb/
    • 面向实际使用重新整理的一套知识库包
    • 当前结构:
    • 00_导入说明.md
    • 01_知识库使用规则.md
    • 02_版本变更总览.md
    • 03_需求预评审执行指南.md
    • 04_后台实现导读.md
    • 10_*17_* 模块文件
  • dist/dify_import/
    • 面向 Dify / 通用 RAG 平台的中颗粒度导入包
    • 当前结构:
    • 00_导入说明.md
    • 01_使用规则.md
    • 02_版本变更总览.md
    • 03_需求预评审执行指南.md
    • 04_后台实现导读.md
    • 09_AUTH_高优先参考_医师认证流程.md
    • 10_AUTH_主知识库.md17_GENERAL_主知识库.md
  • dist/backend_code/
    • 后台实现补充知识
    • 当前结构:
    • code_atoms.jsonl
    • 01_接口契约.md
    • 02_枚举与状态.md
    • 03_实现约束.md
    • 04_模块映射.md
  • dist/quality/
    • atoms 质量报告与问题明细

聊天记录

  • 本次对话 transcript:chats/e16793ce-e4b0-4497-8cda-b792d10c1eeb.jsonl

未来接手入口

按顺序看:

  • docs/产品研发RAG_接手说明.md
  • docs/产品研发RAG_增量更新与Dify维护手册.md
  • docs/产品研发RAG_飞书目录页文案.md
  • skills/product-rag-maintainer/SKILL.md