系列 · 第 7 章 / 共 12 章

数据治理 · 9 min 阅读

不同场景要不同数据 · 五类燃料分类

第六章 · 知识型/数据型/推理型/智能体型/具身型

2026年5月17日

五类 AI 场景燃料结构图

前面 5 章在讲概念、维度、方法论。这一章是听众最关心的问题：

“我们医院/律所到底要建什么数据？”

我用一个分类框架——按 AI 应用的核心燃料类型分五大类：

类型	核心燃料	技术栈	是否需要训练
A. 知识型	结构化知识库	RAG + 知识图谱	不需要训练
B. 数据型	大规模标注训练集	监督学习/微调	重训练
C. 推理型	专家推理链 + 全病程	RLHF + 推理模型	推理链生产
D. 工作流/智能体型	工具 API + 上下文 + 反馈	Agent 框架	飞轮闭环
E. 具身智能型	多模态 + 操作轨迹 + 仿真	VLA / 世界模型	真机+仿真

杀手级金句先放出来：

很多医院在 AI 时代花大钱治理数据，结果发现 80% 的应用场景不吃训练数据，只吃知识库。

先分清楚你的 AI 是吃知识、吃数据、吃推理链、吃工作流还是吃具身轨迹，再谈怎么建。

A. 知识型应用（最容易被忽视）

医疗例子：

医保政策问答助手（DRG/DIP 政策、报销规则）
临床指南检索（NCN/CSCO/中华医学会指南）
合理用药决策（药品说明书、配伍禁忌）
医院 SOP/操作规范助手
合同/法律合规审查
HR/财务/行政办公助手

数据需求：权威来源 + 时效性 + 版本可追溯 + 结构化分块 + 检索元数据 治理重点：知识工程方法论（不是数据治理！） 9 维度对应：完整性、一致性、合规可追溯为主

⚠️ 关键认知：这类应用不需要训练，做的是知识工程，不是数据工程。这是医院 80% AI 应用场景的真相。

法律映射：法律行业 80% 的 AI 应用是知识型——法条/判例/合同条款/合规法规检索。比例比医疗还高。

B. 数据型应用

医疗例子：

影像辅助诊断（肺结节、乳腺癌、糖网筛查）
病理 AI（数字切片识别）
心电/超声/皮肤镜
疾病风险预测、DRG 智能入组、AI 病案首页质控

数据需求：海量样本 + 多专家共识标注 + 多样性 + 严格评测集 治理重点：标注平台 + 专家共识机制 + 多中心数据汇聚 + 评测分层 9 维度对应：标注质量、代表性、可追溯为主

法律映射：合同审查、文书智能审核、案件结果预测、量刑辅助——典型数据型 AI（Harvey AI、通义法睿、法行宝走的就是这条路）。

C. 推理型应用（2026 杀手应用）

医疗例子：

鉴别诊断智能体（疑难病例 MDT 助手）
临床决策支持（CDSS）从规则型升级到推理型
复杂病历的智能撰写
中医辨证论治智能体

数据需求：完整诊疗闭环 + 专家推理思路 + 鉴别诊断过程 + 转归反馈 治理重点：从”结构化病历”升级到”推理链病历”——病历模板增加”鉴别思路”必填项 9 维度对应：知识密度、纵向完整、整合性为主

⚠️ 关键认知：这类数据存量极少，必须主动生产。单纯挖历史病历是挖不出来的，因为传统病历不写鉴别思路。

法律映射：判决书的”裁判理由”是法律行业相对医疗的天然优势——法官写判决书必须给出推理过程，国家裁判文书网就是全球最大法律推理链金矿。图灵翊天就是这一类的标杆案例。

D. 工作流/智能体型

医疗例子：

患者运营/健康管理智能体
医生工作台智能体（智能写病历、智能开医嘱、智能审方）
集团运营驾驶舱智能体
CTO/管理者数字外脑
互联网医院 AI 接诊
院感/质控智能体

数据需求：患者主索引 (EMPI) + 360° 档案 + 工具 API 编排 + 知识库可调用 + 交互日志回流 治理重点：身份打通 + 档案完整性 + API/MCP 接口规范 + 隐私边界 + 飞轮闭环 9 维度对应：整合性、合规、纵向完整 + 一个新维度——交互可追溯

法律映射：法务智能体（GC AI、律杏、星瀚法律 Agent）、律所内部全流程智能体、企业”虚拟法务部”——麦肯锡《Agentic Organization》预测：未来法务部 = 2-5 法务 + 50-100 智能体。

E. 具身智能型

医疗例子：

手术机器人（腔镜/介入/骨科）
康复机器人（上下肢外骨骼、神经康复）
护理机器人（翻身、搬运、喂药）
医院物流/送药/送标本机器人
远程急救/巡诊机器人

数据需求：

视觉+力觉+触觉+IMU 多模态同步流
VLA 三元组：视觉状态 + 自然语言指令 + 动作轨迹
专家示教数据（医生穿戴动捕）
物理仿真合成数据（数字孪生手术室）
失败恢复轨迹（机器人犯错后怎么回正——极其稀缺）

⚠️ 关键认知：单家医院做不起这类数据，必须和机器人厂商联建。

法律映射：法律具身智能比较少，但庭审录音转写、AI 庭审辅助、AI 法律 KIOSK 终端有具身雏形。

真相：实际产品几乎都是混合型

混合型 AI 产品分层结构图

混合型才是常态，单一类型是教学简化：

影像 AI 临床落地 = 数据型（识别）+ 知识型（诊断标准/报告模板）+ 推理型（多病灶联想）
患者智能体 = 工作流型（编排）+ 知识型（健康知识库）+ 数据型（个人档案）
DRG 智能助手 = 数据型（入组模型）+ 知识型（DRG 编码规则）+ 工作流型（嵌入病案首页）

混合型的关键是架构分层：知识库归知识库管，数据集归数据治理管，工作流归 Agent 平台管。很多医院失败在”啥都塞进数据中台”。

这一章金句

没有”万能的高质量医疗数据”，只有”匹配场景的高质量医疗数据”。

先想清楚 AI 要做什么，再决定要建什么数据、按什么标准治理。

下一章：分类讲完了，怎么生产这些数据集？知识工程 / 标注金字塔 / 推理链生产线 / 飞轮工程 / 具身轨迹——一类一套方法论。

#AI应用#知识库#智能体#具身智能

留言

欢迎留言，匿名也可以。填邮箱能收到我的回复通知。

← 返回系列

A. 知识型应用（最容易被忽视）

B. 数据型应用

C. 推理型应用（2026 杀手应用）

D. 工作流/智能体型

E. 具身智能型

真相：实际产品几乎都是混合型

推荐建设优先级

这一章金句

留言