什么是高质量数据 · 4+5 维度
第四章 · 4 维度是入场券,9 维度是 AI 时代成熟度
这一章是整套分享的”专业肌肉”,必须讲透。
传统底座:国家电子病历评级 4 维度
国家卫健委《电子病历系统应用水平分级评价标准》定义了 4 个数据质量维度:
| 维度 | 定义 | 反例 |
|---|---|---|
| 完整性 | 该有的字段都有,关键项不缺失 | 病历缺主诉、缺出院诊断 |
| 一致性 | 同一信息在不同系统/表里逻辑一致 | 患者性别 HIS 是男、LIS 是女 |
| 整合性 | 跨系统、跨业务的数据能关联起来形成完整视图 | 检验单与医嘱无法关联 |
| 及时性 | 数据按规定时间录入,不是事后补录 | 病历事后批量补录 |
⚠️ 专业票:很多人把”整合性”误说成”关联性”。原文是 整合性 (Integration),强调跨域整合后的内在逻辑闭环;关联性 (Correlation) 偏统计概念,不是同一回事。这种小细节,一个字差就暴露专业深度。
转折:传统 4 维度不够了
传统 4 维度解决的是”业务能跑”,不是”AI 能学”。
| 维度 | 传统(业务运行视角) | AI 时代(模型训练/推理视角) |
|---|---|---|
| 目标 | 数据能用于临床和管理 | 数据能让模型学会、推理、决策 |
| 标准 | 规范、闭环、可审计 | 规范 + 多样性 + 知识密度 + 对齐人类专家判断 |
| 致命点 | 缺失、错误 | 偏差、虚假相关、知识浅 |
传统 4 维度是入场券,AI 时代要重新定义高质量。
国际参照:病历质量控制数据集怎么做
病历质控不能只看”有没有写完”,还要看这份病历是否有用、准确、简洁、组织良好、便于后续医生接手。
国际上有一类成熟思路,叫 PDQI-9(Physician Documentation Quality Instrument)。它不是 AI 时代才发明的工具,而是较早用于评价电子病历笔记质量的量表,关注病历是否 up-to-date、accurate、thorough、useful、organized、comprehensible、succinct、synthesized、internally consistent。也就是说,病历质量控制数据集可以不是简单的”错别字/缺字段”数据集,而是:
- 一份原始病历或 AI 生成病历
- 一份医生最终签署版本
- 多名临床专家按 PDQI-9 或本院质控口径评分
- 对差异点做结构化标注:遗漏、幻觉、冗余、逻辑不一致、诊疗计划缺失
这类数据集的价值很高,因为它直接回答一个问题:AI 生成的病历,能不能被医生安全地接手和签署?
但要注意:PDQI-9 不是万能尺子,不同专科、急诊/门诊/住院场景的病历质量标准不一样。更稳的做法是:把 PDQI-9 当作起点,再叠加本院质控规则和专科专家评分。可参考:PDQI-9 电子病历质量评价研究,以及近年用 PDQI-9 评价 AI 生成临床笔记的研究方向。
AI 时代再加 5 个维度
底座 4 维度(完整、一致、整合、及时)继续保留——这是入场券。AI 时代再加:
5️⃣ 标准化与可计算性 (Standardization)
- 术语编码(ICD/SNOMED/LOINC/RxNorm)、单位标准、本体映射
- 没有这一步,再多数据也是”数据废墟”
6️⃣ 代表性与多样性 (Representativeness & Diversity)
- 人群覆盖(年龄、性别、地域、合并症)
- 罕见病、长尾场景的样本密度
- 不能让 AI 只会看典型病例,遇到边缘就崩
7️⃣ 标注与专家共识质量 (Annotation Quality)
- 谁标的(住院医 vs 主任医师 vs 多专家共识)
- 标注一致率(Kappa 系数 > 0.8 是基本线)
- 医疗里这一条几乎决定上限——尤其是影像、病理、基因解读
8️⃣ 知识密度与推理可学习性 (Knowledge Density)
- 不只是”数据量大”,而是”每条数据携带多少专家推理过程”
- 一份带完整鉴别诊断思路的病历 ≫ 一百份只有结论的病历
- 这就是为什么 o1/Mythos 类推理模型依赖专家推理轨迹数据
- 这是 2026 新增的维度,市面上讲数据治理的人 90% 没讲到这一条
9️⃣ 合规、安全与可追溯 (Compliance & Lineage)
- 隐私脱敏、知情同意、伦理审批
- 数据血缘可追溯——医疗 AI 上市的命门
- 与《数据安全法》《个人信息保护法》《生成式 AI 服务管理办法》对齐
9 维度配医疗具体例子
抽象的 9 维度听完会忘,每一条配一个具体场景才有杀伤力:
| 维度 | 医疗具体例子 |
|---|---|
| 完整性 | 病历主诉/现病史/出院诊断必填 |
| 一致性 | 跨 HIS/LIS/EMR 的患者性别一致 |
| 整合性 | 检验单 ↔ 医嘱 ↔ 病历可贯通查询 |
| 及时性 | 医嘱实时录入、不允许补录 |
| 标准化 | ICD-11、LOINC、SNOMED CT 全院映射 |
| 代表性 | 罕见病覆盖率、跨省人群分布 |
| 标注质量 | 影像三主任盲标,Kappa > 0.8 |
| 知识密度 | 病历必填”鉴别诊断思路” |
| 合规可追溯 | 训练数据的血缘到原始病历可追溯 |
法律行业的额外维度
法律行业除了通用 9 维度,还有几个独有维度:
- 法域准确性 — 中国大陆/香港/美国/欧盟,法条引用错一个字就是事故
- 时效性 — 法规会废止、修订,过期法条引用是低级错误
- 裁判倾向性 — 同案不同地不同法院判决倾向不同
- 可引证性 — 必须能精确引用到具体法条、具体判决书编号
这四个维度合起来叫”法律行业 + 4 维度”,叠加在通用 9 维度之上。
这一章的核心金句
传统数据质量解决”能不能用”,AI 时代的数据质量解决”AI 能不能学得对、判得准、敢上临床”。
4 维度是入场券,9 维度是 AI 时代的医院数据资产成熟度。
下一章:高质量数据怎么”形成”——传统三件套 + AI 时代新内涵 + 三个无解的新难题。
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。