把"数据"讲清楚（概念栈）

第二章 · 从数据到本体的六层阶梯

2026年5月17日

数据六层阶梯结构图

谈数据建设之前，先把”数据”这个词讲清楚。

不是矫情——很多医院花了大钱治理数据，结果发现治错了对象。问题就出在概念没分清。

数据的六层阶梯

从原始到资产，数据有六层：

⚠️ 第六层”本体”这个词请记住。第九章 Palantir 案例会回来收口——它是医院在 AI 时代真正的护城河。

医疗数据四维分类结构图

医疗数据再按四个维度切，能切出更细的颗粒度：

按主体：

按形态：

按来源：

按时态：

法律行业有完全平行的分类——按主体（当事人/律所/法院）、按形态（结构化判决书数据 / 非结构化合同文本 / 半结构化诉状）、按来源（裁判文书网/法规库/合同库/卷宗）、按时态（一审/二审/再审 = 法律的”全病程”）。

数据概念混淆对照结构图

这三组分清，治理就上道了：

第一组：高质量数据 ≠ 大数据 ≠ 干净数据

很多医院花大钱”清洗”数据，洗完发现 AI 还是不会用——因为干净不等于高质量。

第二组：标注 ≠ 标准化 ≠ 治理

三件事经常被混为一谈，结果做了标注以为做了治理，做了治理以为做了标准化。

第三组：数据集 ≠ 知识库 ≠ 评测集

这一组最关键——很多医院把训练集和评测集搅在一起，结果模型在自己的数据上分数虚高，一上临床就崩。

我的金句：

概念不分清，治理就乱套。很多医院花了大钱治理数据，结果发现治错了对象。

下一章：数据的角色变了——从燃料到智商，2022 vs 2026 数据观的根本转变。

#数据治理#元数据#知识图谱#本体

欢迎留言，匿名也可以。填邮箱能收到我的回复通知。