Aaron 乐
系列 · 第 8 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 7 min 阅读

高质量数据集怎么生产

第七章 · 五类燃料,五套生产方法论

2026年5月17日

五类数据生产线结构图

前面讲了不同 AI 场景吃不同数据。这一章回答更硬的问题:

这些高质量数据集,到底怎么生产出来?

先把金句放在前面:

高质量数据集不是”治理”出来的,是”生产”出来的。

治理是把脏数据洗干净,生产是把专家智慧固化下来。

所以这一章不再泛泛讲数据治理,而是按五类燃料分别讲生产线。

知识型:知识工程方法论

知识工程五步法结构图

知识型应用最常见,但最容易被误解。它不是”把 PDF 丢进向量库”这么简单。

一条合格的知识工程生产线,至少有五步:

  1. 来源认证:法规、指南、SOP、说明书必须来自权威来源,可追溯到原文
  2. 解析分块:按语义切分,不是按字数硬切;章节层级要保留
  3. 嵌入入库:选择合适的 embedding 模型,中文医疗领域要考虑垂类效果
  4. 检索引用追溯:RAG 输出必须带原文引用、版本和页码
  5. 过期下线:政策和指南更新后,旧版本要自动检测、替换、留痕

医疗里的典型例子是医保政策助手:每月新发政策自动入库,专家审核,上线前用 50 道高频问题做回归测试。

法律行业其实更适合这条路。法规库、判例库、司法解释本身已经高度结构化,北大法宝、得理法搜、Westlaw 都是知识工程逻辑。法律行业的第一波 AI 红利,不一定来自训练模型,而是来自把知识库做对。

数据型:标注工程三层金字塔

标注工程三层金字塔结构图

数据型应用的关键不是”汇集数据”,而是建立标注生产线

我建议用三层金字塔理解:

还有一条铁律:评测集必须独立守门,绝对不能和训练集混用

影像共享中心抢的不是”影像汇聚”,而是跨院标注平台和专家共识机制。合同审查模型也是一样:AI 初筛风险条款,法务规范标注,资深律师做共识审核。

推理型:推理链生产线

推理链生产线结构图

这一节是 2026 年的新工程能力,也是最值钱的部分。

市面上讲数据治理的人很多,讲推理链生产的人很少。但推理模型真正吃的,不只是结论,而是专家怎么想。

推理链主要有三个来源:

第一,MDT / 疑难病例讨论。
把会议录音做 ASR 转写,再结构化,再由专家审校。ASR 只是入口,结构化和专家审校才是质量核心。一年沉淀下来的 MDT 推理链,是临床推理智能体的金矿。

第二,病历模板改造。
在病历里增加”鉴别诊断思路”等必填项,把医生原本只在脑子里完成的推理写下来。难点不在技术,而在制度和绩效。

第三,AI 先生成,专家修改。
AI 草稿降低专家成本,专家修改天然形成偏好对,可用于 RLHF 或偏好对齐。

关键认知是:

推理链是一条新生产线,要立项、配人、配工具,不是去现有数据库里挖一挖就有。

法律行业在这里有天然优势。判决书里的”裁判理由”就是结构化法律推理链的原矿。谁能把裁判理由、争议焦点、法律适用、论证路径结构化好,谁就有 2026-2030 年法律推理 AI 的制高点。

国际参照:病历生成数据集的三种来源

病历生成数据集四层闭环案例图

病历生成不是”让大模型凭空写 SOAP”,真正有价值的数据集通常来自三类来源。

第一类:公开脱敏病历笔记数据集。
MIT/PhysioNet 的 MIMIC-IV-Note 来自美国 Beth Israel Deaconess Medical Center,包含 331,794 份脱敏出院小结,覆盖 145,915 名患者。这类数据适合做临床文本理解、摘要、结构化抽取和病历生成基准,但它的缺点也明显:它主要是历史文书,不包含医生从对话到最终签署的修改过程。参考:MIMIC-IV-Note

第二类:ambient documentation 的真实闭环数据。
Mass General Brigham 的公开介绍里提到,他们先用约 20 名临床人员、约 500 次就诊做概念验证,观察 AI draft 是否会编造内容,以及草稿进入最终病历的比例;后来扩大到约 800 名临床人员,近年已发展到 4000+ provider 的常规使用规模。这个案例说明:真正值钱的不是音频,也不是 AI 草稿,而是”音频/转写 → AI 草稿 → 医生修改 → 最终签署”这条链路。参考:Mass General Brigham ambient documentation后续研究进展

第三类:大规模部署后的差异数据。
Kaiser Permanente / The Permanente Medical Group 这类大规模 ambient scribe 部署,核心价值不只是节省医生时间,而是每天产生大量”AI 草稿与医生最终版本的差异”。这些差异可以转化为偏好对、错误类型、质控规则和专科模板优化数据。对医院来说,这就是病历生成数据集的飞轮原料。

所以,如果我们要设计自己的病历生成数据集,建议从一开始就保留四层数据:

  1. 原始对话或转写
  2. AI 生成草稿
  3. 医生修改轨迹
  4. 最终签署病历与质控评分

这四层合在一起,才是能持续改进的病历生成数据集。

工作流/智能体型:飞轮工程

智能体型应用的数据生产,不发生在上线前,而发生在上线后。

方法论很简单:

  1. 工具 API 标准化:MCP / Function Calling / 内部 API 要铺好
  2. 上线埋点:记录成功率、人工干预点、失败原因、用户修改
  3. 周回收:每周分析”未解决 Top 20”
  4. 优化迭代:补知识、调 prompt、加工具、改流程

患者智能体上线后,每一次未解决的问题、每一次医生改写、每一次患者追问,都是反馈数据。法务智能体也是一样:律师采纳、拒绝、修改 AI 建议,都是黄金数据。

这会催生一个新基础设施:Agent Eval Ops 平台。它不是传统监控系统,而是智能体表现的评测、反馈、回归和上线守门体系。

具身智能型:多模态操作数据

具身数据最贵,也最难单家机构独立完成。

主要来源有三个:

这类数据的核心不是单条病例,而是多模态同步流:视觉状态、自然语言指令、动作轨迹、力反馈、失败恢复路径。

关键判断:

单家医院做不起具身智能数据,必须和机器人厂商联建。

法律行业里的具身智能较少,但庭审录音转写、AI 庭审辅助、AI 法律 KIOSK 终端,已经有一点雏形。

四个共性环节

不管哪一类数据生产线,都逃不开四件事:

这一章最后只留一句:

生产高质量数据集,比治理高质量数据集,更需要工程化能力。

下一章,我们把视角拉远:数据会怎么演进?

#数据生产#知识工程#推理链#智能体

留言

欢迎留言,匿名也可以。填邮箱能收到我的回复通知。

← 返回系列