高质量数据集怎么生产
第七章 · 五类燃料,五套生产方法论
前面讲了不同 AI 场景吃不同数据。这一章回答更硬的问题:
这些高质量数据集,到底怎么生产出来?
先把金句放在前面:
高质量数据集不是”治理”出来的,是”生产”出来的。
治理是把脏数据洗干净,生产是把专家智慧固化下来。
所以这一章不再泛泛讲数据治理,而是按五类燃料分别讲生产线。
知识型:知识工程方法论
知识型应用最常见,但最容易被误解。它不是”把 PDF 丢进向量库”这么简单。
一条合格的知识工程生产线,至少有五步:
- 来源认证:法规、指南、SOP、说明书必须来自权威来源,可追溯到原文
- 解析分块:按语义切分,不是按字数硬切;章节层级要保留
- 嵌入入库:选择合适的 embedding 模型,中文医疗领域要考虑垂类效果
- 检索引用追溯:RAG 输出必须带原文引用、版本和页码
- 过期下线:政策和指南更新后,旧版本要自动检测、替换、留痕
医疗里的典型例子是医保政策助手:每月新发政策自动入库,专家审核,上线前用 50 道高频问题做回归测试。
法律行业其实更适合这条路。法规库、判例库、司法解释本身已经高度结构化,北大法宝、得理法搜、Westlaw 都是知识工程逻辑。法律行业的第一波 AI 红利,不一定来自训练模型,而是来自把知识库做对。
数据型:标注工程三层金字塔
数据型应用的关键不是”汇集数据”,而是建立标注生产线。
我建议用三层金字塔理解:
-
底层:模型自动初筛
弱监督、model-in-the-loop,先把明显样本筛出来,减少人工初筛量。 -
中层:住院医/专业人员规范标注
用统一标注平台和 SOP,保证效率与一致性。 -
顶层:多专家共识
争议病例三人盲标,Kappa 值要过线,形成真正可信的金标准。
还有一条铁律:评测集必须独立守门,绝对不能和训练集混用。
影像共享中心抢的不是”影像汇聚”,而是跨院标注平台和专家共识机制。合同审查模型也是一样:AI 初筛风险条款,法务规范标注,资深律师做共识审核。
推理型:推理链生产线
这一节是 2026 年的新工程能力,也是最值钱的部分。
市面上讲数据治理的人很多,讲推理链生产的人很少。但推理模型真正吃的,不只是结论,而是专家怎么想。
推理链主要有三个来源:
第一,MDT / 疑难病例讨论。
把会议录音做 ASR 转写,再结构化,再由专家审校。ASR 只是入口,结构化和专家审校才是质量核心。一年沉淀下来的 MDT 推理链,是临床推理智能体的金矿。
第二,病历模板改造。
在病历里增加”鉴别诊断思路”等必填项,把医生原本只在脑子里完成的推理写下来。难点不在技术,而在制度和绩效。
第三,AI 先生成,专家修改。
AI 草稿降低专家成本,专家修改天然形成偏好对,可用于 RLHF 或偏好对齐。
关键认知是:
推理链是一条新生产线,要立项、配人、配工具,不是去现有数据库里挖一挖就有。
法律行业在这里有天然优势。判决书里的”裁判理由”就是结构化法律推理链的原矿。谁能把裁判理由、争议焦点、法律适用、论证路径结构化好,谁就有 2026-2030 年法律推理 AI 的制高点。
国际参照:病历生成数据集的三种来源
病历生成不是”让大模型凭空写 SOAP”,真正有价值的数据集通常来自三类来源。
第一类:公开脱敏病历笔记数据集。
MIT/PhysioNet 的 MIMIC-IV-Note 来自美国 Beth Israel Deaconess Medical Center,包含 331,794 份脱敏出院小结,覆盖 145,915 名患者。这类数据适合做临床文本理解、摘要、结构化抽取和病历生成基准,但它的缺点也明显:它主要是历史文书,不包含医生从对话到最终签署的修改过程。参考:MIMIC-IV-Note。
第二类:ambient documentation 的真实闭环数据。
Mass General Brigham 的公开介绍里提到,他们先用约 20 名临床人员、约 500 次就诊做概念验证,观察 AI draft 是否会编造内容,以及草稿进入最终病历的比例;后来扩大到约 800 名临床人员,近年已发展到 4000+ provider 的常规使用规模。这个案例说明:真正值钱的不是音频,也不是 AI 草稿,而是”音频/转写 → AI 草稿 → 医生修改 → 最终签署”这条链路。参考:Mass General Brigham ambient documentation 与 后续研究进展。
第三类:大规模部署后的差异数据。
Kaiser Permanente / The Permanente Medical Group 这类大规模 ambient scribe 部署,核心价值不只是节省医生时间,而是每天产生大量”AI 草稿与医生最终版本的差异”。这些差异可以转化为偏好对、错误类型、质控规则和专科模板优化数据。对医院来说,这就是病历生成数据集的飞轮原料。
所以,如果我们要设计自己的病历生成数据集,建议从一开始就保留四层数据:
- 原始对话或转写
- AI 生成草稿
- 医生修改轨迹
- 最终签署病历与质控评分
这四层合在一起,才是能持续改进的病历生成数据集。
工作流/智能体型:飞轮工程
智能体型应用的数据生产,不发生在上线前,而发生在上线后。
方法论很简单:
- 工具 API 标准化:MCP / Function Calling / 内部 API 要铺好
- 上线埋点:记录成功率、人工干预点、失败原因、用户修改
- 周回收:每周分析”未解决 Top 20”
- 优化迭代:补知识、调 prompt、加工具、改流程
患者智能体上线后,每一次未解决的问题、每一次医生改写、每一次患者追问,都是反馈数据。法务智能体也是一样:律师采纳、拒绝、修改 AI 建议,都是黄金数据。
这会催生一个新基础设施:Agent Eval Ops 平台。它不是传统监控系统,而是智能体表现的评测、反馈、回归和上线守门体系。
具身智能型:多模态操作数据
具身数据最贵,也最难单家机构独立完成。
主要来源有三个:
- 真机采集:手术机器人记录视觉、力觉、动作轨迹,贵但真实
- 专家示教:医生穿戴动捕设备,生产 VLA 数据
- 仿真生成:用数字孪生手术室生成合成数据,补长尾场景
这类数据的核心不是单条病例,而是多模态同步流:视觉状态、自然语言指令、动作轨迹、力反馈、失败恢复路径。
关键判断:
单家医院做不起具身智能数据,必须和机器人厂商联建。
法律行业里的具身智能较少,但庭审录音转写、AI 庭审辅助、AI 法律 KIOSK 终端,已经有一点雏形。
四个共性环节
不管哪一类数据生产线,都逃不开四件事:
- 来源认证:数据从哪里来,是否权威,是否可用
- 治理流程:谁审、怎么审、版本怎么管
- 评测分层:训练、验证、测试严格隔离
- 反馈闭环:上线后怎么回流,飞轮怎么转
这一章最后只留一句:
生产高质量数据集,比治理高质量数据集,更需要工程化能力。
下一章,我们把视角拉远:数据会怎么演进?
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。