系列 · 第 8 章 / 共 12 章

数据治理 · 7 min 阅读

高质量数据集怎么生产

第七章 · 五类燃料，五套生产方法论

2026年5月17日

五类数据生产线结构图

前面讲了不同 AI 场景吃不同数据。这一章回答更硬的问题：

这些高质量数据集，到底怎么生产出来？

先把金句放在前面：

高质量数据集不是”治理”出来的，是”生产”出来的。

治理是把脏数据洗干净，生产是把专家智慧固化下来。

所以这一章不再泛泛讲数据治理，而是按五类燃料分别讲生产线。

知识型：知识工程方法论

知识工程五步法结构图

知识型应用最常见，但最容易被误解。它不是”把 PDF 丢进向量库”这么简单。

一条合格的知识工程生产线，至少有五步：

来源认证：法规、指南、SOP、说明书必须来自权威来源，可追溯到原文
解析分块：按语义切分，不是按字数硬切；章节层级要保留
嵌入入库：选择合适的 embedding 模型，中文医疗领域要考虑垂类效果
检索引用追溯：RAG 输出必须带原文引用、版本和页码
过期下线：政策和指南更新后，旧版本要自动检测、替换、留痕

医疗里的典型例子是医保政策助手：每月新发政策自动入库，专家审核，上线前用 50 道高频问题做回归测试。

法律行业其实更适合这条路。法规库、判例库、司法解释本身已经高度结构化，北大法宝、得理法搜、Westlaw 都是知识工程逻辑。法律行业的第一波 AI 红利，不一定来自训练模型，而是来自把知识库做对。

数据型：标注工程三层金字塔

标注工程三层金字塔结构图

数据型应用的关键不是”汇集数据”，而是建立标注生产线。

我建议用三层金字塔理解：

底层：模型自动初筛
弱监督、model-in-the-loop，先把明显样本筛出来，减少人工初筛量。
中层：住院医/专业人员规范标注
用统一标注平台和 SOP，保证效率与一致性。
顶层：多专家共识
争议病例三人盲标，Kappa 值要过线，形成真正可信的金标准。

还有一条铁律：评测集必须独立守门，绝对不能和训练集混用。

影像共享中心抢的不是”影像汇聚”，而是跨院标注平台和专家共识机制。合同审查模型也是一样：AI 初筛风险条款，法务规范标注，资深律师做共识审核。

推理型：推理链生产线

推理链生产线结构图

这一节是 2026 年的新工程能力，也是最值钱的部分。

市面上讲数据治理的人很多，讲推理链生产的人很少。但推理模型真正吃的，不只是结论，而是专家怎么想。

推理链主要有三个来源：

第一，MDT / 疑难病例讨论。
把会议录音做 ASR 转写，再结构化，再由专家审校。ASR 只是入口，结构化和专家审校才是质量核心。一年沉淀下来的 MDT 推理链，是临床推理智能体的金矿。

第二，病历模板改造。
在病历里增加”鉴别诊断思路”等必填项，把医生原本只在脑子里完成的推理写下来。难点不在技术，而在制度和绩效。

第三，AI 先生成，专家修改。
AI 草稿降低专家成本，专家修改天然形成偏好对，可用于 RLHF 或偏好对齐。

关键认知是：

推理链是一条新生产线，要立项、配人、配工具，不是去现有数据库里挖一挖就有。

法律行业在这里有天然优势。判决书里的”裁判理由”就是结构化法律推理链的原矿。谁能把裁判理由、争议焦点、法律适用、论证路径结构化好，谁就有 2026-2030 年法律推理 AI 的制高点。

国际参照：病历生成数据集的三种来源

病历生成数据集四层闭环案例图

病历生成不是”让大模型凭空写 SOAP”，真正有价值的数据集通常来自三类来源。

第一类：公开脱敏病历笔记数据集。
MIT/PhysioNet 的 MIMIC-IV-Note 来自美国 Beth Israel Deaconess Medical Center，包含 331,794 份脱敏出院小结，覆盖 145,915 名患者。这类数据适合做临床文本理解、摘要、结构化抽取和病历生成基准，但它的缺点也明显：它主要是历史文书，不包含医生从对话到最终签署的修改过程。参考：MIMIC-IV-Note。

第二类：ambient documentation 的真实闭环数据。
Mass General Brigham 的公开介绍里提到，他们先用约 20 名临床人员、约 500 次就诊做概念验证，观察 AI draft 是否会编造内容，以及草稿进入最终病历的比例；后来扩大到约 800 名临床人员，近年已发展到 4000+ provider 的常规使用规模。这个案例说明：真正值钱的不是音频，也不是 AI 草稿，而是”音频/转写 → AI 草稿 → 医生修改 → 最终签署”这条链路。参考：Mass General Brigham ambient documentation 与后续研究进展。

第三类：大规模部署后的差异数据。
Kaiser Permanente / The Permanente Medical Group 这类大规模 ambient scribe 部署，核心价值不只是节省医生时间，而是每天产生大量”AI 草稿与医生最终版本的差异”。这些差异可以转化为偏好对、错误类型、质控规则和专科模板优化数据。对医院来说，这就是病历生成数据集的飞轮原料。

所以，如果我们要设计自己的病历生成数据集，建议从一开始就保留四层数据：

原始对话或转写
AI 生成草稿
医生修改轨迹
最终签署病历与质控评分

这四层合在一起，才是能持续改进的病历生成数据集。

工作流/智能体型：飞轮工程

智能体型应用的数据生产，不发生在上线前，而发生在上线后。

方法论很简单：

工具 API 标准化：MCP / Function Calling / 内部 API 要铺好
上线埋点：记录成功率、人工干预点、失败原因、用户修改
周回收：每周分析”未解决 Top 20”
优化迭代：补知识、调 prompt、加工具、改流程

患者智能体上线后，每一次未解决的问题、每一次医生改写、每一次患者追问，都是反馈数据。法务智能体也是一样：律师采纳、拒绝、修改 AI 建议，都是黄金数据。

这会催生一个新基础设施：Agent Eval Ops 平台。它不是传统监控系统，而是智能体表现的评测、反馈、回归和上线守门体系。

具身智能型：多模态操作数据

具身数据最贵，也最难单家机构独立完成。

主要来源有三个：

真机采集：手术机器人记录视觉、力觉、动作轨迹，贵但真实
专家示教：医生穿戴动捕设备，生产 VLA 数据
仿真生成：用数字孪生手术室生成合成数据，补长尾场景

这类数据的核心不是单条病例，而是多模态同步流：视觉状态、自然语言指令、动作轨迹、力反馈、失败恢复路径。

关键判断：

单家医院做不起具身智能数据，必须和机器人厂商联建。

法律行业里的具身智能较少，但庭审录音转写、AI 庭审辅助、AI 法律 KIOSK 终端，已经有一点雏形。

四个共性环节

不管哪一类数据生产线，都逃不开四件事：

来源认证：数据从哪里来，是否权威，是否可用
治理流程：谁审、怎么审、版本怎么管
评测分层：训练、验证、测试严格隔离
反馈闭环：上线后怎么回流，飞轮怎么转

这一章最后只留一句：

生产高质量数据集，比治理高质量数据集，更需要工程化能力。

下一章，我们把视角拉远：数据会怎么演进？

#数据生产#知识工程#推理链#智能体

留言

欢迎留言，匿名也可以。填邮箱能收到我的回复通知。

← 返回系列