知识库蒸馏方案调整

鲲鹏
1 parent dd49cf9a
Showing 26 changed files with 399 additions and 31 deletions
README.md
dist/.DS_Store
dist/dify_import/02_版本变更总览.md
dist/dify_import/10_AUTH_主知识库.md
dist/dify_import/11_INCOME_主知识库.md
dist/dify_import/12_INQUIRY_主知识库.md
dist/dify_import/13_CLINIC_主知识库.md
dist/dify_import/14_PATIENT_主知识库.md
dist/dify_import/15_NOTIFICATION_主知识库.md
dist/dify_import/16_BACKSTAGE_主知识库.md
dist/dify_import/17_GENERAL_主知识库.md
dist/usable_kb/00_导入说明.md
dist/usable_kb/02_版本变更总览.md
dist/usable_kb/10_AUTH_认证.md
dist/usable_kb/11_INCOME_收入提现.md
dist/usable_kb/12_INQUIRY_问诊.md
dist/usable_kb/13_CLINIC_门诊.md
dist/usable_kb/14_PATIENT_患者.md
dist/usable_kb/15_NOTIFICATION_通知.md
dist/usable_kb/16_BACKSTAGE_后台.md
--- a/README.md
View file @15657c4
+++ b/README.md
View file @15657c4
@@ -42,6 +42,8 @@
   - 扫描后台代码仓库，生成接口契约、枚举状态、实现约束三类实现补充知识
 - `scripts/build_usable_knowledge_pack.py`
   - 生成一套面向日常问答与预评审的可用知识库包 `dist/usable_kb/`
+  - 当前输出为完整主题展开版：不再限制每模块主题数，也不再只抽样少量主事实/补充事实
+  - 会对 `feature_scope`、模块标签和标题做归一化，尽量减少版本前缀、容器前缀和脏标题
 - `scripts/build_dify_import_pack.py`
   - 把 `dist/usable_kb/` 整理成更适合 Dify / 通用 RAG 平台导入的中颗粒度包 `dist/dify_import/`
 - `scripts/rebuild_version_kb.sh`
--- a/dist/.DS_Store
View file @15657c4
+++ b/dist/.DS_Store
View file @15657c4
--- a/dist/dify_import/02_版本变更总览.md
View file @15657c4
+++ b/dist/dify_import/02_版本变更总览.md
View file @15657c4
--- a/dist/dify_import/10_AUTH_主知识库.md
View file @15657c4
+++ b/dist/dify_import/10_AUTH_主知识库.md
View file @15657c4
--- a/dist/dify_import/11_INCOME_主知识库.md
View file @15657c4
+++ b/dist/dify_import/11_INCOME_主知识库.md
View file @15657c4
--- a/dist/dify_import/12_INQUIRY_主知识库.md
View file @15657c4
+++ b/dist/dify_import/12_INQUIRY_主知识库.md
View file @15657c4
--- a/dist/dify_import/13_CLINIC_主知识库.md
View file @15657c4
+++ b/dist/dify_import/13_CLINIC_主知识库.md
View file @15657c4
--- a/dist/dify_import/14_PATIENT_主知识库.md
View file @15657c4
+++ b/dist/dify_import/14_PATIENT_主知识库.md
View file @15657c4
--- a/dist/dify_import/15_NOTIFICATION_主知识库.md
View file @15657c4
+++ b/dist/dify_import/15_NOTIFICATION_主知识库.md
View file @15657c4
--- a/dist/dify_import/16_BACKSTAGE_主知识库.md
View file @15657c4
+++ b/dist/dify_import/16_BACKSTAGE_主知识库.md
View file @15657c4
--- a/dist/dify_import/17_GENERAL_主知识库.md
View file @15657c4
+++ b/dist/dify_import/17_GENERAL_主知识库.md
View file @15657c4
--- a/dist/usable_kb/00_导入说明.md
View file @15657c4
+++ b/dist/usable_kb/00_导入说明.md
View file @15657c4
@@ -20,16 +20,16 @@
 - `16_BACKSTAGE_后台.md`
 - `17_GENERAL_通用.md`
-- 产品主题数：2330
+- 产品主题数：2235
 - 后台实现原子数：4048
 ## 模块覆盖
-- AUTH / 认证：660 个主题
-- INCOME / 收入提现：537 个主题
-- INQUIRY / 问诊：777 个主题
-- CLINIC / 门诊：573 个主题
-- PATIENT / 患者：973 个主题
-- NOTIFICATION / 通知：358 个主题
-- BACKSTAGE / 后台：297 个主题
-- GENERAL / 通用：357 个主题
+- AUTH / 认证：668 个主题
+- INCOME / 收入提现：558 个主题
+- INQUIRY / 问诊：768 个主题
+- CLINIC / 门诊：565 个主题
+- PATIENT / 患者：957 个主题
+- NOTIFICATION / 通知：347 个主题
+- BACKSTAGE / 后台：316 个主题
+- GENERAL / 通用：354 个主题
--- a/dist/usable_kb/02_版本变更总览.md
View file @15657c4
+++ b/dist/usable_kb/02_版本变更总览.md
View file @15657c4
--- a/dist/usable_kb/10_AUTH_认证.md
View file @15657c4
+++ b/dist/usable_kb/10_AUTH_认证.md
View file @15657c4
--- a/dist/usable_kb/11_INCOME_收入提现.md
View file @15657c4
+++ b/dist/usable_kb/11_INCOME_收入提现.md
View file @15657c4
--- a/dist/usable_kb/12_INQUIRY_问诊.md
View file @15657c4
+++ b/dist/usable_kb/12_INQUIRY_问诊.md
View file @15657c4
--- a/dist/usable_kb/13_CLINIC_门诊.md
View file @15657c4
+++ b/dist/usable_kb/13_CLINIC_门诊.md
View file @15657c4
--- a/dist/usable_kb/14_PATIENT_患者.md
View file @15657c4
+++ b/dist/usable_kb/14_PATIENT_患者.md
View file @15657c4
--- a/dist/usable_kb/15_NOTIFICATION_通知.md
View file @15657c4
+++ b/dist/usable_kb/15_NOTIFICATION_通知.md
View file @15657c4
--- a/dist/usable_kb/16_BACKSTAGE_后台.md
View file @15657c4
+++ b/dist/usable_kb/16_BACKSTAGE_后台.md
View file @15657c4
--- a/dist/usable_kb/17_GENERAL_通用.md
View file @15657c4
+++ b/dist/usable_kb/17_GENERAL_通用.md
View file @15657c4
--- a/docs/产品研发RAG_增量更新与Dify维护手册.md
View file @15657c4
+++ b/docs/产品研发RAG_增量更新与Dify维护手册.md
View file @15657c4
@@ -188,6 +188,11 @@ bash scripts/rebuild_all_kb.sh
 ## 7. 每次更新后的最小验收
+先做结构验收：
+- 检查 `dist/usable_kb/` 与 `dist/dify_import/` 的模块主文件是否已重建
+- 检查模块主文件是否为完整主题展开版，而不是旧的少量摘要主题
+- 如果本次改了主题归一化或标题提炼规则，抽查 `AUTH`、`INCOME` 两个模块标题是否变得更稳定、更可检索
+
 ### 产品主知识库
 至少测：
@@ -229,6 +234,17 @@ bash scripts/rebuild_all_kb.sh
 - 替换后台实现补充知识库 4 个文件
 - 如实现约束变化明显，同步更新飞书主文档中的实现说明
+### 修改生成脚本 / 导出规则 / 标题归一化逻辑
+
+- 重跑受影响的构建脚本，至少包含 `python3 scripts/build_usable_knowledge_pack.py`
+- 如 `dist/dify_import/` 受影响，再跑 `python3 scripts/build_dify_import_pack.py`
+- 同步更新：
+  - `docs/产品研发RAG_总体方案与实施手册.md`
+  - `docs/产品研发RAG_增量更新与Dify维护手册.md`
+  - `docs/产品研发RAG_接手说明.md`
+  - `skills/product-rag-maintainer/SKILL.md`
+- 这一步默认必做，不需要额外提醒
+
 ## 9. 原则
 - 底层知识资产是一套
--- a/docs/产品研发RAG_总体方案与实施手册.md
View file @15657c4
+++ b/docs/产品研发RAG_总体方案与实施手册.md
View file @15657c4
@@ -571,6 +571,9 @@ flowchart TD
 作用：
 - 把主事实、补充事实、后台实现信息整理成一套更适合直接使用的知识库包
+- 当前默认输出“完整主知识库版”，不再把模块文件裁成少量主题摘要
+- 每个主题会完整展开产品主事实与交互/测试补充事实
+- 导出前会对 `feature_scope`、模块标签和主题标题做归一化，尽量减少版本前缀、端侧容器前缀与脏标题
 输出：
@@ -584,6 +587,7 @@ flowchart TD
 - 保留公共文件和模块主文件
 - 自动吸收 `inputs/priority_refs/*.md` 这类高优先参考文件
 - 交给 Dify 在导入时继续做内部切分
+- 当前不会再次把模块主文件压缩成摘要版，而是直接复制完整展开后的主知识库文件
 输出：
@@ -608,6 +612,12 @@ python3 scripts/build_usable_knowledge_pack.py
 python3 scripts/build_dify_import_pack.py
 ```
+## 8.1.1 维护约束
+
+- 只要修改了知识库生成脚本、导出结构、主题归一化规则或 Dify 导入规则，必须同步更新 `docs/` 下对应说明文档
+- 同时必须同步更新 repo 内维护 skill：`skills/product-rag-maintainer/SKILL.md`
+- 不要把脚本行为改了但文档和 skill 还停留在旧流程
+
 如需同时接入后台代码仓库，再执行：
 ```bash
--- a/docs/产品研发RAG_接手说明.md
View file @15657c4
+++ b/docs/产品研发RAG_接手说明.md
View file @15657c4
@@ -83,6 +83,17 @@ bash scripts/rebuild_version_kb.sh <version> /Users/xwk/Downloads/studio-server2
 python3 scripts/build_dify_import_pack.py
 ```
+### 修改知识库生成逻辑
+
+- 如果动了 `scripts/build_usable_knowledge_pack.py`、`scripts/build_dify_import_pack.py` 或其他会改变导出结构的脚本：
+
+```bash
+python3 scripts/build_usable_knowledge_pack.py
+python3 scripts/build_dify_import_pack.py
+```
+
+- 然后同步更新主文档、维护手册和 repo 内 skill，不要只改脚本不改说明
+
 ### 全量重刷
 ```bash
@@ -104,6 +115,10 @@ bash scripts/rebuild_all_kb.sh /Users/xwk/Downloads/studio-server2
 如果这次有新增专项规则，还同步：
 - 对应 `inputs/priority_refs/*.md`
+如果这次修改了知识库生成逻辑，还同步：
+- `skills/product-rag-maintainer/SKILL.md`
+- 相关 `docs/*.md` 中的运行手册与产物说明
+
 ## 6. 不要做的事
 - 不要把所有内容硬塞回 Dify 的一个知识库
--- a/scripts/build_usable_knowledge_pack.py
View file @15657c4
+++ b/scripts/build_usable_knowledge_pack.py
View file @15657c4
@@ -43,6 +43,99 @@ MODULE_NAMES = {
     "BACKSTAGE": "后台",
     "GENERAL": "通用",
 }
+GENERIC_RESULTS = {"满足预期", "搜索出结果", "成功", "失败", "显示成功", "显示失败", "显示正常", "表现正常", "逻辑同上", "无"}
+MODULE_ALIASES = {
+    "AUTH": "AUTH",
+    "认证": "AUTH",
+    "身份认证": "AUTH",
+    "医生认证": "AUTH",
+    "医师资质": "AUTH",
+    "互联网医院备案": "AUTH",
+    "用户注册": "AUTH",
+    "用户登录": "AUTH",
+    "INCOME": "INCOME",
+    "收入": "INCOME",
+    "收入提现": "INCOME",
+    "签约": "INCOME",
+    "签约提现": "INCOME",
+    "税收": "INCOME",
+    "税务": "INCOME",
+    "收入税务": "INCOME",
+    "缴税": "INCOME",
+    "收税方式": "INCOME",
+    "税源地": "INCOME",
+    "结算": "INCOME",
+    "费用结算": "INCOME",
+    "绩效收入": "INCOME",
+    "工猫": "INCOME",
+    "安易发": "INCOME",
+    "提现": "INCOME",
+    "INQUIRY": "INQUIRY",
+    "问诊": "INQUIRY",
+    "图文问诊": "INQUIRY",
+    "电话问诊": "INQUIRY",
+    "视频问诊": "INQUIRY",
+    "问诊单": "INQUIRY",
+    "问诊定价": "INQUIRY",
+    "待接诊": "INQUIRY",
+    "聊天": "INQUIRY",
+    "消息会话": "INQUIRY",
+    "医患聊天": "INQUIRY",
+    "CLINIC": "CLINIC",
+    "门诊": "CLINIC",
+    "预约挂号": "CLINIC",
+    "PATIENT": "PATIENT",
+    "患者": "PATIENT",
+    "患者端": "PATIENT",
+    "患者管理": "PATIENT",
+    "患者档案": "PATIENT",
+    "患者分组": "PATIENT",
+    "患者互动": "PATIENT",
+    "患者通讯录": "PATIENT",
+    "患者搜索": "PATIENT",
+    "病历": "PATIENT",
+    "随访": "PATIENT",
+    "评价": "PATIENT",
+    "锦旗": "PATIENT",
+    "电子锦旗": "PATIENT",
+    "NOTIFICATION": "NOTIFICATION",
+    "通知": "NOTIFICATION",
+    "BACKSTAGE": "BACKSTAGE",
+    "后台": "BACKSTAGE",
+    "医生管理": "BACKSTAGE",
+    "二维码管理": "BACKSTAGE",
+    "工作室设置": "BACKSTAGE",
+    "工作室开通": "BACKSTAGE",
+    "GENERAL": "GENERAL",
+}
+GENERIC_FEATURE_SEGMENTS = {
+    "功能描述",
+    "需求背景",
+    "背景",
+    "说明",
+    "场景",
+    "兼容性",
+    "新版本",
+    "老版本",
+    "医师端",
+    "患者端",
+    "医生App",
+    "APP端",
+    "小程序端",
+    "PC端",
+}
+BAD_TITLE_KEYWORDS = {"目标", "背景", "说明", "场景", "功能描述", "需求背景", "兼容性"}
+BAD_TITLE_STARTS = ("如果", "当", "该", "给", "通知", "有", "无", "进入", "直接", "还是", "已经", "支持", "显示", "不显示")
+GENERIC_PREFIX_PATTERNS = (
+    "医师端",
+    "患者端",
+    "医生App",
+    "APP端",
+    "小程序端",
+    "PC端",
+    "猫头鹰端",
+    "猫头鹰后台",
+)
 def clean_text(text: str) -> str:
@@ -78,6 +171,137 @@ def display_feature_scope(feature_scope: str) -> str:
     return clean_text(scope) or "未归类功能"
+def normalize_module(value: str) -> str | None:
+    text = clean_text(value)
+    if not text:
+        return None
+    upper = text.upper()
+    if upper in MODULE_ORDER:
+        return upper
+    return MODULE_ALIASES.get(text)
+
+
+def normalize_feature_segments(feature_scope: str) -> list[str]:
+    text = clean_text(feature_scope)
+    text = re.sub(r"\s*-\s*>\s*", " > ", text)
+    text = re.sub(r"\s*>\s*", " > ", text)
+    text = re.sub(r"^v?\d+(?:\.\d+)+(?:\s*>\s*)?", "", text, flags=re.I)
+    parts = [display_feature_scope(part) for part in re.split(r"\s*>\s*", text) if display_feature_scope(part)]
+    cleaned = []
+    for part in parts:
+        part = re.sub(r"^[❤♥•◦■]+", "", part).strip()
+        for prefix in GENERIC_PREFIX_PATTERNS:
+            part = re.sub(rf"^{re.escape(prefix)}\s*[-－/]\s*", "", part)
+        if re.fullmatch(r"v?\d+(?:\.\d+)+", part, flags=re.I):
+            continue
+        part = re.sub(r"^(?:功能描述|需求背景|背景|说明|场景)[:：]\s*", "", part)
+        part = clean_text(part)
+        if not part:
+            continue
+        cleaned.append(part)
+    return cleaned
+
+
+def normalize_feature_key(feature_scope: str) -> str:
+    parts = normalize_feature_segments(feature_scope)
+    if not parts:
+        return "未归类功能"
+    if len(parts) == 1:
+        return parts[0]
+    tail = parts[-1]
+    prev = parts[-2]
+    if re.fullmatch(r"[\d.]+", tail):
+        return prev
+    if tail in GENERIC_FEATURE_SEGMENTS or len(tail) <= 2:
+        return f"{prev} > {tail}"
+    if len(prev) >= 18 and len(tail) <= 18:
+        return tail
+    if prev in GENERIC_FEATURE_SEGMENTS:
+        return tail
+    if len(tail) <= 12 or len(prev) <= 12:
+        return f"{prev} > {tail}"
+    return tail
+
+
+def normalize_title_candidate(text: str) -> str:
+    text = normalize_feature_key(text)
+    text = re.sub(r"\s*-\s*>\s*", " > ", text)
+    for prefix in GENERIC_PREFIX_PATTERNS:
+        text = re.sub(rf"^{re.escape(prefix)}\s*[-－/]\s*", "", text)
+    text = re.sub(r"^(?:目标|背景|说明|场景|功能描述|需求背景)[:：]\s*", "", text)
+    text = re.sub(r"^[•◦■\-]+\s*", "", text)
+    text = clean_text(text)
+    return text
+
+
+def rewrite_title(text: str) -> str:
+    text = normalize_title_candidate(text)
+    if not text:
+        return text
+    text = re.sub(r"^操作(?:切换)?", "", text).strip()
+    text = re.sub(r"^点击(.+?) > (.+)$", r"\1 > \2", text)
+    text = re.sub(r"^点击(.+)$", r"\1", text)
+    text = re.sub(r"^去掉涉及到的(.+?)相关$", r"\1", text)
+    text = re.sub(r"^去掉[“\"]?(.+?)[”\"]?$", r"\1", text)
+    text = re.sub(r"^增加app的(.+)$", r"\1", text, flags=re.I)
+    text = re.sub(r"^外治还是走原来的流程$", "外治流程", text)
+    text = re.sub(r"^没有选择任何筛选条件$", "筛选条件为空", text)
+    text = re.sub(r"^第四周放号数据生成$", "第四周放号", text)
+    text = re.sub(r"^设置线下预约挂号时[:：]\s*(.+)$", r"线下预约挂号设置", text)
+    text = re.sub(r"^“我的-优惠券”.*$", "我的优惠券展示", text)
+    text = re.sub(r"^(.+?)还是走原来的流程$", r"\1流程", text)
+    text = clean_text(text.strip(" >-"))
+    return text
+
+
+def is_good_title(text: str) -> bool:
+    text = rewrite_title(text)
+    if not text or text == "未归类功能":
+        return False
+    if len(text) < 3 or len(text) > 40:
+        return False
+    if text.startswith(BAD_TITLE_STARTS):
+        return False
+    if any(text.startswith(f"{prefix}-") or text.startswith(f"{prefix} >") for prefix in GENERIC_PREFIX_PATTERNS):
+        return False
+    if text in GENERIC_FEATURE_SEGMENTS:
+        return False
+    if any(keyword in text for keyword in BAD_TITLE_KEYWORDS):
+        return False
+    return True
+
+
+def extract_title_fragments(text: str) -> list[str]:
+    raw = clean_text(text)
+    if not raw:
+        return []
+    raw = re.sub(r"\s*-\s*>\s*", " > ", raw)
+    candidates = [raw]
+    if ">" in raw:
+        candidates.extend(part.strip() for part in raw.split(">") if part.strip())
+    candidates.extend(re.split(r"[；;]", raw))
+    enriched = []
+    for item in candidates:
+        item = clean_text(item)
+        if not item:
+            continue
+        item = re.sub(r"^(?:\d+[.、)]\s*)+", "", item)
+        item = re.sub(r"^(?:操作|点击|选择|设置|显示|进入|打开|查看|发送|支持|增加|新增)[:：]?\s*", "", item)
+        item = re.split(r"[，,。]", item, maxsplit=1)[0]
+        item = re.split(r"\s{2,}", item, maxsplit=1)[0]
+        item = rewrite_title(item)
+        if item and not item.startswith(BAD_TITLE_STARTS):
+            enriched.append(item)
+    result = []
+    seen = set()
+    for item in enriched:
+        if item in seen:
+            continue
+        seen.add(item)
+        result.append(item)
+    return result
+
+
 def normalize_rule(text: str) -> str:
     text = clean_text(text)
     text = re.sub(r"^[a-zA-ZivxIVX]+[.、)]\s*", "", text)
@@ -89,21 +313,40 @@ def normalize_rule(text: str) -> str:
 def choose_title(feature: str, atoms: list[dict]) -> str:
-    candidates = [display_feature_scope(feature)]
+    candidates: list[tuple[str, int]] = [
+        (rewrite_title(feature), 3),
+        (normalize_feature_key(feature), 2),
+        (display_feature_scope(feature), 1),
+    ]
     for atom in atoms:
-        for raw in (atom.get("A", ""), atom.get("C", "")):
-            value = display_feature_scope(raw)
-            if value and value != "未归类功能":
-                candidates.append(value)
-    filtered = []
+        for raw in (atom.get("feature_scope", ""),):
+            for value in extract_title_fragments(raw):
+                if value and value != "未归类功能":
+                    candidates.append((value, 3))
+        for raw in (atom.get("C", ""), atom.get("A", ""), atom.get("R", "")):
+            for value in extract_title_fragments(raw):
+                if value and value != "未归类功能":
+                    candidates.append((value, 1))
+    filtered: list[tuple[str, int]] = []
     seen = set()
-    for item in candidates:
+    for item, source_rank in candidates:
         if not item or item in seen:
             continue
         seen.add(item)
-        filtered.append(item)
-    filtered.sort(key=lambda x: (x == "未归类功能", len(x)))
-    return filtered[0] if filtered else "未归类功能"
+        filtered.append((item, source_rank))
+    if not filtered:
+        return "未归类功能"
+
+    def score(entry: tuple[str, int]) -> tuple[int, int, int, int, str]:
+        title, source_rank = entry
+        title = rewrite_title(title)
+        good = 1 if is_good_title(title) else 0
+        path_bonus = 1 if " > " in title and not any(title.startswith(f"{prefix} >") for prefix in GENERIC_PREFIX_PATTERNS) else 0
+        ideal_len = -abs(len(title) - 10)
+        return (good, source_rank, path_bonus, ideal_len, title)
+
+    filtered.sort(key=score, reverse=True)
+    return filtered[0][0]
 def sample_product_rules(atoms: list[dict], limit: int = 3) -> list[str]:
@@ -124,16 +367,69 @@ def sample_product_rules(atoms: list[dict], limit: int = 3) -> list[str]:
     return rules
+def collect_rule_entries(atoms: list[dict]) -> list[dict]:
+    entries = []
+    seen = set()
+    for atom in sorted(
+        atoms,
+        key=lambda x: (
+            version_key(x.get("app_version", "")),
+            x.get("atom_type", ""),
+            x.get("merge_fingerprint", ""),
+            x.get("R", ""),
+            x.get("A", ""),
+        ),
+    ):
+        for raw in (atom.get("R", ""), atom.get("A", ""), atom.get("canon_text", "")):
+            text = normalize_rule(raw)
+            if not text or len(text) < 2:
+                continue
+            if text in GENERIC_RESULTS:
+                continue
+            key = (
+                atom.get("app_version", ""),
+                atom.get("atom_type", ""),
+                text,
+            )
+            if key in seen:
+                continue
+            seen.add(key)
+            entries.append(
+                {
+                    "version": atom.get("app_version", "") or "未知版本",
+                    "source": atom.get("atom_type", "") or "unknown",
+                    "text": text,
+                }
+            )
+            break
+    return entries
+
+
 def group_product_features(master_atoms: list[dict]) -> dict[str, dict]:
     grouped: dict[str, dict] = {}
     by_feature: dict[str, list[dict]] = defaultdict(list)
     for atom in master_atoms:
         if atom.get("atom_type") not in {"doc_rule", "definition", "rule", "case_rule"}:
             continue
-        by_feature[atom.get("feature_scope", "未归类功能")].append(atom)
+        normalized_feature = normalize_feature_key(atom.get("feature_scope", "未归类功能"))
+        by_feature[normalized_feature].append(atom)
     for feature, atoms in by_feature.items():
-        modules = sorted({m for atom in atoms for m in atom.get("modules", []) if m})
+        modules = sorted(
+            {
+                normalized
+                for atom in atoms
+                for normalized in [normalize_module(atom.get("primary_module", ""))]
+                if normalized
+            }
+            | {
+                normalized
+                for atom in atoms
+                for module in atom.get("modules", [])
+                for normalized in [normalize_module(module)]
+                if normalized
+            }
+        )
         primary = [a for a in atoms if a.get("atom_type") in {"doc_rule", "definition"}]
         supplement = [a for a in atoms if a.get("atom_type") in {"rule", "case_rule"}]
         versions = sorted({a.get("app_version", "") for a in atoms if a.get("app_version")}, key=version_key)
@@ -243,13 +539,13 @@ def render_versions(product_features: dict[str, dict]) -> str:
         "",
     ]
     items = sorted(product_features.values(), key=lambda x: (-len(x["versions"]), x["title"].lower()))
-    for item in items[:220]:
+    for item in items:
         lines.append(f"## {item['title']}")
         lines.append("")
         lines.append(f"- 模块：{', '.join(item['modules'])}")
         lines.append(f"- 版本：{', '.join(item['versions']) or '无'}")
-        lines.append(f"- 主事实样例：{'；'.join(sample_product_rules(item['primary'], 2)) or '无'}")
-        lines.append(f"- 补充样例：{'；'.join(sample_product_rules(item['supplement'], 2)) or '无'}")
+        lines.append(f"- 主事实数：{len(collect_rule_entries(item['primary']))}")
+        lines.append(f"- 补充事实数：{len(collect_rule_entries(item['supplement']))}")
         lines.append("")
     return "\n".join(lines)
@@ -345,17 +641,33 @@ def render_module_file(module: str, items: list[dict], code_bucket: dict[str, li
         lines.append(f"- 约束样例：{'；'.join(constraint_samples)}")
     lines.extend(["", "## 主题清单", ""])
-    for item in sorted(items, key=feature_rank)[:90]:
+    for item in sorted(items, key=feature_rank):
         lines.append(f"### {item['title']}")
         lines.append("")
         if item["touchpoints"]:
             lines.append(f"- 触点：{', '.join(item['touchpoints'])}")
         if item["versions"]:
             lines.append(f"- 涉及版本：{', '.join(item['versions'])}")
-        primary_rules = sample_product_rules(item["primary"], 3)
-        supplement_rules = sample_product_rules(item["supplement"], 3)
-        lines.append(f"- 产品主事实：{'；'.join(primary_rules) or '无'}")
-        lines.append(f"- 交互/测试补充：{'；'.join(supplement_rules) or '无'}")
+        primary_entries = collect_rule_entries(item["primary"])
+        supplement_entries = collect_rule_entries(item["supplement"])
+        lines.append(f"- 主事实条数：{len(primary_entries)}")
+        lines.append(f"- 补充事实条数：{len(supplement_entries)}")
+        lines.append("")
+        lines.append("#### 产品主事实")
+        lines.append("")
+        if primary_entries:
+            for entry in primary_entries:
+                lines.append(f"- [{entry['version']}] {entry['text']}")
+        else:
+            lines.append("- 无")
+        lines.append("")
+        lines.append("#### 交互/测试补充")
+        lines.append("")
+        if supplement_entries:
+            for entry in supplement_entries:
+                lines.append(f"- [{entry['version']}] {entry['text']}")
+        else:
+            lines.append("- 无")
         lines.append("")
     return "\n".join(lines)
--- a/skills/product-rag-maintainer/SKILL.md
View file @15657c4
+++ b/skills/product-rag-maintainer/SKILL.md
View file @15657c4
@@ -17,10 +17,22 @@ Use this skill when the task is to continue maintaining the repository at `äº§å“
    - new high-priority reference
    - backend repo update
    - full rebuild
+   - generator or export-rule update
 5. Run the matching script:
    - version rebuild: `bash scripts/rebuild_version_kb.sh <version> [backend_repo]`
    - full rebuild: `bash scripts/rebuild_all_kb.sh [backend_repo]`
    - Dify import pack only: `python3 scripts/build_dify_import_pack.py`
+   - if any generator / export / title-normalization logic changed, rebuild at least:
+     - `python3 scripts/build_usable_knowledge_pack.py`
+     - `python3 scripts/build_dify_import_pack.py`
+
+## Documentation Sync
+
+After any change to scripts, output structure, title-normalization logic, or maintenance behavior:
+
+1. Update the matching docs under `docs/`.
+2. Update this skill file if the workflow or rules changed.
+3. Treat doc and skill sync as mandatory follow-up work, not an optional reminder.
 ## File placement rules
@@ -61,8 +73,9 @@ After any update:
 1. Check `dist/dify_import/`, `dist/backend_code/`, `dist/final_kb/`.
 2. Check `dist/quality/atom_quality_summary.md`.
-3. Run Dify retrieval tests using the examples in `references/validation-queries.md`.
-4. After version updates, remind the user to sync the Feishu docs entry pages and version overview.
+3. If `build_usable_knowledge_pack.py` changed, verify the module files are still complete expanded knowledge files rather than truncated summaries.
+4. Run Dify retrieval tests using the examples in `references/validation-queries.md`.
+5. After version updates, remind the user to sync the Feishu docs entry pages and version overview.
 ## Notes