系列 · 第 3 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 5 min 阅读
把"数据"讲清楚(概念栈)
第二章 · 从数据到本体的六层阶梯
2026年5月17日
谈数据建设之前,先把”数据”这个词讲清楚。
不是矫情——很多医院花了大钱治理数据,结果发现治错了对象。问题就出在概念没分清。
数据的六层阶梯
从原始到资产,数据有六层:
- 数据 (Data) — 原始记录。比如一次化验、一次挂号
- 数据源 (Data Source) — 产生方/系统。HIS、LIS、PACS、可穿戴、互联网医院
- 元数据 (Metadata) — 描述数据的数据。字段含义、产生时间、采集设备、版本、血缘
- 数据集 (Dataset) — 面向特定用途整理过的数据集合。比如”乳腺癌筛查训练集”
- 数据资产 (Data Asset) — 有价值、可复用、有治理的数据集。这是组织级别的资产
- 知识图谱 / 本体 (Ontology) — 结构化的医学知识表达
⚠️ 第六层”本体”这个词请记住。第九章 Palantir 案例会回来收口——它是医院在 AI 时代真正的护城河。
医疗数据的特殊分类
医疗数据再按四个维度切,能切出更细的颗粒度:
按主体:
- 主数据(人/药/项目/机构)
- 业务数据
- 临床数据
按形态:
- 结构化(化验/处方)
- 半结构化(病历模板)
- 非结构化(影像/病理/语音)
按来源:
- 临床真实世界数据 (RWD)
- 组学数据
- 行为数据
- 互联网医疗交互数据
按时态:
- 横截面数据
- 纵向数据(全病程)—— 这是医疗 AI 的护城河
法律行业有完全平行的分类——按主体(当事人/律所/法院)、按形态(结构化判决书数据 / 非结构化合同文本 / 半结构化诉状)、按来源(裁判文书网/法规库/合同库/卷宗)、按时态(一审/二审/再审 = 法律的”全病程”)。
三组容易混淆的概念
这三组分清,治理就上道了:
第一组:高质量数据 ≠ 大数据 ≠ 干净数据
- 大数据强调”量”
- 干净数据强调”清洗”
- 高质量数据强调”匹配 AI 用途”
很多医院花大钱”清洗”数据,洗完发现 AI 还是不会用——因为干净不等于高质量。
第二组:标注 ≠ 标准化 ≠ 治理
- 标注是给数据”打标签”,让 AI 学
- 标准化是把不同来源的数据统一成同一种”语言”(编码/单位/字段命名)
- 治理是建立组织、制度、流程,把数据当资产管起来
三件事经常被混为一谈,结果做了标注以为做了治理,做了治理以为做了标准化。
第三组:数据集 ≠ 知识库 ≠ 评测集
- 数据集是给模型训练用的(“喂”模型)
- 知识库是给模型推理时检索用的(“查”知识)
- 评测集是给模型把关用的(“考”模型)
这一组最关键——很多医院把训练集和评测集搅在一起,结果模型在自己的数据上分数虚高,一上临床就崩。
我的金句:
概念不分清,治理就乱套。很多医院花了大钱治理数据,结果发现治错了对象。
这一章的关键词
- 元数据 (Metadata)
- 本体 (Ontology) — 第九章 Palantir 案例会回来
- 全病程纵向数据 — 医疗 AI 的护城河
- 数据集 vs 知识库 vs 评测集 — 三件事不能混
下一章:数据的角色变了——从燃料到智商,2022 vs 2026 数据观的根本转变。
#数据治理#元数据#知识图谱#本体
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。