Name Last Update
.cursor/rules Loading commit data...
build Loading commit data...
chats Loading commit data...
dist Loading commit data...
docs Loading commit data...
inputs Loading commit data...
knowledge Loading commit data...
pdf Loading commit data...
prompts Loading commit data...
scripts Loading commit data...
skills/product-rag-maintainer Loading commit data...
testCase Loading commit data...
.DS_Store Loading commit data...
README.md Loading commit data...

产品RAG体系建设(归档入口)

本目录用于沉淀「产品研发 RAG 知识库」相关的聊天记录与产物文件,避免散落在仓库各处或需要翻聊天。

仓库地址:

  • http://gitlab.dajiazhongyi.com/xuweikang/RAG_

目录结构

  • docs/: 主方案文档、Figma 索引、版本同步表
  • inputs/figma/<app_version>/links.txt: 每个版本的 Figma 链接清单
  • inputs/priority_refs/: 人工整理后的高优先参考文档与原始 PDF
  • skills/product-rag-maintainer/: 用于后续维护本仓库的 repo 内 skill
  • build/<app_version>/: 该版本的规则原子、视图、后续合并产物
  • chats/: 聊天 transcript(jsonl)

已归档(当前)

  • v4.57.3
    • Figma links: inputs/figma/v4.57.3/links.txt
    • rule_atoms: build/v4.57.3/rule_atoms.jsonl
    • rule_view: build/v4.57.3/rule_view.md
    • version sync: docs/version_sync_v4.57.3.yaml

v2 新增资产

  • scripts/build_rag_assets.py
    • 统一聚合 build 下各版本 atoms,生成跨版本索引、版本演进和需求预评审知识包
  • scripts/validate_atoms.py
    • 对 atoms 做全量质量扫描,输出问题清单和汇总报告
  • scripts/extract_testcase_candidates.py
    • 将 XML 转为结构化 testcase candidates,供模型蒸馏 case atoms
  • scripts/extract_pdf_segments.py
    • 将 PDF 转为结构化 doc segments,供模型蒸馏 doc atoms
  • scripts/normalize_model_atoms.py
    • 将模型输出的 atoms 规范化后回写到 build/<version>/
  • scripts/build_final_knowledge_base.py
    • 从统一索引生成最终可导入的合成知识库 dist/final_kb/
  • scripts/build_synthesized_atoms.py
    • case_candidates/doc_segments 启发式合成更干净的 *_model.jsonl
  • scripts/build_backend_code_knowledge.py
    • 扫描后台代码仓库,生成接口契约、枚举状态、实现约束三类实现补充知识
  • scripts/build_usable_knowledge_pack.py
    • 生成一套面向日常问答与预评审的可用知识库包 dist/usable_kb/
    • 当前输出为完整主题展开版:不再限制每模块主题数,也不再只抽样少量主事实/补充事实
    • 会对 feature_scope、模块标签和标题做归一化,尽量减少版本前缀、容器前缀和脏标题
  • scripts/build_dify_import_pack.py
    • dist/usable_kb/ 整理成更适合 Dify / 通用 RAG 平台导入的中颗粒度包 dist/dify_import/
  • scripts/rebuild_version_kb.sh
    • 针对单版本做一次增量重建
  • scripts/rebuild_all_kb.sh
    • 对全仓库知识资产做一次全量重建
  • prompts/
    • 混合式 atoms 生产的模型提示词模板
  • docs/产品研发RAG_总体方案与实施手册.md
    • 当前项目唯一主方案文档,包含目标、架构图、流程图、运行手册和扩展方案
  • docs/产品研发RAG_增量更新与Dify维护手册.md
    • 新版本、新专项文档、后台代码更新时的操作手册
  • docs/产品研发RAG_接手说明.md
    • 未来 AI / 新同学快速接手项目的交接说明
  • docs/产品研发RAG_飞书目录页文案.md
    • 可直接复制到飞书的目录页说明文案

推荐生产链(v2)

  1. python3 scripts/extract_testcase_candidates.py 4.57.3
  2. python3 scripts/extract_pdf_segments.py 4.57.3
  3. prompts/*.md 驱动模型生成 atoms
  4. python3 scripts/normalize_model_atoms.py <model_output.jsonl> case|doc|rule
  5. python3 scripts/validate_atoms.py
  6. python3 scripts/build_rag_assets.py
  7. python3 scripts/build_final_knowledge_base.py

接入后台代码仓库时

  1. python3 scripts/build_backend_code_knowledge.py --repo /Users/xwk/Downloads/studio-server2
  2. python3 scripts/build_final_knowledge_base.py
  3. python3 scripts/build_usable_knowledge_pack.py
  4. python3 scripts/build_dify_import_pack.py

增量更新建议

  • 单版本更新:
    • bash scripts/rebuild_version_kb.sh 4.57.3 /Users/xwk/Downloads/studio-server2
  • 全量重建:
    • bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2

无外部模型时的替代跑法

  1. python3 scripts/extract_testcase_candidates.py
  2. python3 scripts/extract_pdf_segments.py
  3. python3 scripts/build_synthesized_atoms.py
  4. python3 scripts/build_rag_assets.py
  5. python3 scripts/build_final_knowledge_base.py

关键产物

  • dist/rag/
    • 统一知识索引层产物
  • dist/final_kb/
    • 最终可导入的合成知识库
    • 当前结构:
    • 00_导入说明.md
    • 01_知识库设计原则.md
    • 02_培训文档主事实库.md
    • 03_培训文档保留项.md
    • 04_Figma与测试补充库.md
    • 05_版本演进.md
    • 06_需求预评审.md
    • 07_模块辅助索引.md
    • 08_后台代码实现补充库.md
  • dist/usable_kb/
    • 面向实际使用重新整理的一套知识库包
    • 当前结构:
    • 00_导入说明.md
    • 01_知识库使用规则.md
    • 02_版本变更总览.md
    • 03_需求预评审执行指南.md
    • 04_后台实现导读.md
    • 10_*17_* 模块文件
  • dist/dify_import/
    • 面向 Dify / 通用 RAG 平台的中颗粒度导入包
    • 当前结构:
    • 00_导入说明.md
    • 01_使用规则.md
    • 02_版本变更总览.md
    • 03_需求预评审执行指南.md
    • 04_后台实现导读.md
    • 09_AUTH_高优先参考_医师认证流程.md
    • 10_AUTH_主知识库.md17_GENERAL_主知识库.md
  • dist/backend_code/
    • 后台实现补充知识
    • 当前结构:
    • code_atoms.jsonl
    • 01_接口契约.md
    • 02_枚举与状态.md
    • 03_实现约束.md
    • 04_模块映射.md
  • dist/quality/
    • atoms 质量报告与问题明细

聊天记录

  • 本次对话 transcript:chats/e16793ce-e4b0-4497-8cda-b792d10c1eeb.jsonl

未来接手入口

按顺序看:

  • docs/产品研发RAG_接手说明.md
  • docs/产品研发RAG_增量更新与Dify维护手册.md
  • docs/产品研发RAG_飞书目录页文案.md
  • skills/product-rag-maintainer/SKILL.md