Aaron 乐
系列 · 第 5 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 8 min 阅读

什么是高质量数据 · 4+5 维度

第四章 · 4 维度是入场券,9 维度是 AI 时代成熟度

2026年5月17日

高质量数据 4+5 维度结构图

这一章是整套分享的”专业肌肉”,必须讲透。

传统底座:国家电子病历评级 4 维度

国家卫健委《电子病历系统应用水平分级评价标准》定义了 4 个数据质量维度:

维度定义反例
完整性该有的字段都有,关键项不缺失病历缺主诉、缺出院诊断
一致性同一信息在不同系统/表里逻辑一致患者性别 HIS 是男、LIS 是女
整合性跨系统、跨业务的数据能关联起来形成完整视图检验单与医嘱无法关联
及时性数据按规定时间录入,不是事后补录病历事后批量补录

⚠️ 专业票:很多人把”整合性”误说成”关联性”。原文是 整合性 (Integration),强调跨域整合后的内在逻辑闭环;关联性 (Correlation) 偏统计概念,不是同一回事。这种小细节,一个字差就暴露专业深度。

转折:传统 4 维度不够了

传统数据质量与 AI 数据质量对比图

传统 4 维度解决的是”业务能跑”,不是”AI 能学”。

维度传统(业务运行视角)AI 时代(模型训练/推理视角)
目标数据能用于临床和管理数据能让模型学会、推理、决策
标准规范、闭环、可审计规范 + 多样性 + 知识密度 + 对齐人类专家判断
致命点缺失、错误偏差、虚假相关、知识浅

传统 4 维度是入场券,AI 时代要重新定义高质量。

国际参照:病历质量控制数据集怎么做

病历质控数据集案例图

病历质控不能只看”有没有写完”,还要看这份病历是否有用、准确、简洁、组织良好、便于后续医生接手

国际上有一类成熟思路,叫 PDQI-9(Physician Documentation Quality Instrument)。它不是 AI 时代才发明的工具,而是较早用于评价电子病历笔记质量的量表,关注病历是否 up-to-date、accurate、thorough、useful、organized、comprehensible、succinct、synthesized、internally consistent。也就是说,病历质量控制数据集可以不是简单的”错别字/缺字段”数据集,而是:

这类数据集的价值很高,因为它直接回答一个问题:AI 生成的病历,能不能被医生安全地接手和签署?

但要注意:PDQI-9 不是万能尺子,不同专科、急诊/门诊/住院场景的病历质量标准不一样。更稳的做法是:把 PDQI-9 当作起点,再叠加本院质控规则和专科专家评分。可参考:PDQI-9 电子病历质量评价研究,以及近年用 PDQI-9 评价 AI 生成临床笔记的研究方向。

AI 时代再加 5 个维度

底座 4 维度(完整、一致、整合、及时)继续保留——这是入场券。AI 时代再加:

5️⃣ 标准化与可计算性 (Standardization)

6️⃣ 代表性与多样性 (Representativeness & Diversity)

7️⃣ 标注与专家共识质量 (Annotation Quality)

8️⃣ 知识密度与推理可学习性 (Knowledge Density)

9️⃣ 合规、安全与可追溯 (Compliance & Lineage)

9 维度配医疗具体例子

抽象的 9 维度听完会忘,每一条配一个具体场景才有杀伤力:

维度医疗具体例子
完整性病历主诉/现病史/出院诊断必填
一致性跨 HIS/LIS/EMR 的患者性别一致
整合性检验单 ↔ 医嘱 ↔ 病历可贯通查询
及时性医嘱实时录入、不允许补录
标准化ICD-11、LOINC、SNOMED CT 全院映射
代表性罕见病覆盖率、跨省人群分布
标注质量影像三主任盲标,Kappa > 0.8
知识密度病历必填”鉴别诊断思路”
合规可追溯训练数据的血缘到原始病历可追溯

法律行业的额外维度

法律数据额外质量维度结构图

法律行业除了通用 9 维度,还有几个独有维度:

这四个维度合起来叫”法律行业 + 4 维度”,叠加在通用 9 维度之上。

这一章的核心金句

传统数据质量解决”能不能用”,AI 时代的数据质量解决”AI 能不能学得对、判得准、敢上临床”。

4 维度是入场券,9 维度是 AI 时代的医院数据资产成熟度。

下一章:高质量数据怎么”形成”——传统三件套 + AI 时代新内涵 + 三个无解的新难题。

#高质量数据#数据治理#9维度

留言

欢迎留言,匿名也可以。填邮箱能收到我的回复通知。

← 返回系列