Aaron 乐
系列 · 第 3 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 5 min 阅读

把"数据"讲清楚(概念栈)

第二章 · 从数据到本体的六层阶梯

2026年5月17日

数据六层阶梯结构图

谈数据建设之前,先把”数据”这个词讲清楚。

不是矫情——很多医院花了大钱治理数据,结果发现治错了对象。问题就出在概念没分清。

数据的六层阶梯

从原始到资产,数据有六层:

  1. 数据 (Data) — 原始记录。比如一次化验、一次挂号
  2. 数据源 (Data Source) — 产生方/系统。HIS、LIS、PACS、可穿戴、互联网医院
  3. 元数据 (Metadata) — 描述数据的数据。字段含义、产生时间、采集设备、版本、血缘
  4. 数据集 (Dataset) — 面向特定用途整理过的数据集合。比如”乳腺癌筛查训练集”
  5. 数据资产 (Data Asset) — 有价值、可复用、有治理的数据集。这是组织级别的资产
  6. 知识图谱 / 本体 (Ontology) — 结构化的医学知识表达

⚠️ 第六层”本体”这个词请记住。第九章 Palantir 案例会回来收口——它是医院在 AI 时代真正的护城河。

医疗数据的特殊分类

医疗数据四维分类结构图

医疗数据再按四个维度切,能切出更细的颗粒度:

按主体

按形态

按来源

按时态

法律行业有完全平行的分类——按主体(当事人/律所/法院)、按形态(结构化判决书数据 / 非结构化合同文本 / 半结构化诉状)、按来源(裁判文书网/法规库/合同库/卷宗)、按时态(一审/二审/再审 = 法律的”全病程”)。

三组容易混淆的概念

数据概念混淆对照结构图

这三组分清,治理就上道了:

第一组:高质量数据 ≠ 大数据 ≠ 干净数据

很多医院花大钱”清洗”数据,洗完发现 AI 还是不会用——因为干净不等于高质量。

第二组:标注 ≠ 标准化 ≠ 治理

三件事经常被混为一谈,结果做了标注以为做了治理,做了治理以为做了标准化。

第三组:数据集 ≠ 知识库 ≠ 评测集

这一组最关键——很多医院把训练集和评测集搅在一起,结果模型在自己的数据上分数虚高,一上临床就崩。

我的金句:

概念不分清,治理就乱套。很多医院花了大钱治理数据,结果发现治错了对象。

这一章的关键词

下一章:数据的角色变了——从燃料到智商,2022 vs 2026 数据观的根本转变。

#数据治理#元数据#知识图谱#本体

留言

欢迎留言,匿名也可以。填邮箱能收到我的回复通知。

← 返回系列