不同场景要不同数据 · 五类燃料分类
第六章 · 知识型/数据型/推理型/智能体型/具身型
前面 5 章在讲概念、维度、方法论。这一章是听众最关心的问题:
“我们医院/律所到底要建什么数据?”
我用一个分类框架——按 AI 应用的核心燃料类型分五大类:
| 类型 | 核心燃料 | 技术栈 | 是否需要训练 |
|---|---|---|---|
| A. 知识型 | 结构化知识库 | RAG + 知识图谱 | 不需要训练 |
| B. 数据型 | 大规模标注训练集 | 监督学习/微调 | 重训练 |
| C. 推理型 | 专家推理链 + 全病程 | RLHF + 推理模型 | 推理链生产 |
| D. 工作流/智能体型 | 工具 API + 上下文 + 反馈 | Agent 框架 | 飞轮闭环 |
| E. 具身智能型 | 多模态 + 操作轨迹 + 仿真 | VLA / 世界模型 | 真机+仿真 |
杀手级金句先放出来:
很多医院在 AI 时代花大钱治理数据,结果发现 80% 的应用场景不吃训练数据,只吃知识库。
先分清楚你的 AI 是吃知识、吃数据、吃推理链、吃工作流还是吃具身轨迹,再谈怎么建。
A. 知识型应用(最容易被忽视)
医疗例子:
- 医保政策问答助手(DRG/DIP 政策、报销规则)
- 临床指南检索(NCN/CSCO/中华医学会指南)
- 合理用药决策(药品说明书、配伍禁忌)
- 医院 SOP/操作规范助手
- 合同/法律合规审查
- HR/财务/行政办公助手
数据需求:权威来源 + 时效性 + 版本可追溯 + 结构化分块 + 检索元数据 治理重点:知识工程方法论(不是数据治理!) 9 维度对应:完整性、一致性、合规可追溯为主
⚠️ 关键认知:这类应用不需要训练,做的是知识工程,不是数据工程。这是医院 80% AI 应用场景的真相。
法律映射:法律行业 80% 的 AI 应用是知识型——法条/判例/合同条款/合规法规检索。比例比医疗还高。
B. 数据型应用
医疗例子:
- 影像辅助诊断(肺结节、乳腺癌、糖网筛查)
- 病理 AI(数字切片识别)
- 心电/超声/皮肤镜
- 疾病风险预测、DRG 智能入组、AI 病案首页质控
数据需求:海量样本 + 多专家共识标注 + 多样性 + 严格评测集 治理重点:标注平台 + 专家共识机制 + 多中心数据汇聚 + 评测分层 9 维度对应:标注质量、代表性、可追溯为主
法律映射:合同审查、文书智能审核、案件结果预测、量刑辅助——典型数据型 AI(Harvey AI、通义法睿、法行宝走的就是这条路)。
C. 推理型应用(2026 杀手应用)
医疗例子:
- 鉴别诊断智能体(疑难病例 MDT 助手)
- 临床决策支持(CDSS)从规则型升级到推理型
- 复杂病历的智能撰写
- 中医辨证论治智能体
数据需求:完整诊疗闭环 + 专家推理思路 + 鉴别诊断过程 + 转归反馈 治理重点:从”结构化病历”升级到”推理链病历”——病历模板增加”鉴别思路”必填项 9 维度对应:知识密度、纵向完整、整合性为主
⚠️ 关键认知:这类数据存量极少,必须主动生产。单纯挖历史病历是挖不出来的,因为传统病历不写鉴别思路。
法律映射:判决书的”裁判理由”是法律行业相对医疗的天然优势——法官写判决书必须给出推理过程,国家裁判文书网就是全球最大法律推理链金矿。图灵翊天就是这一类的标杆案例。
D. 工作流/智能体型
医疗例子:
- 患者运营/健康管理智能体
- 医生工作台智能体(智能写病历、智能开医嘱、智能审方)
- 集团运营驾驶舱智能体
- CTO/管理者数字外脑
- 互联网医院 AI 接诊
- 院感/质控智能体
数据需求:患者主索引 (EMPI) + 360° 档案 + 工具 API 编排 + 知识库可调用 + 交互日志回流 治理重点:身份打通 + 档案完整性 + API/MCP 接口规范 + 隐私边界 + 飞轮闭环 9 维度对应:整合性、合规、纵向完整 + 一个新维度——交互可追溯
法律映射:法务智能体(GC AI、律杏、星瀚法律 Agent)、律所内部全流程智能体、企业”虚拟法务部”——麦肯锡《Agentic Organization》预测:未来法务部 = 2-5 法务 + 50-100 智能体。
E. 具身智能型
医疗例子:
- 手术机器人(腔镜/介入/骨科)
- 康复机器人(上下肢外骨骼、神经康复)
- 护理机器人(翻身、搬运、喂药)
- 医院物流/送药/送标本机器人
- 远程急救/巡诊机器人
数据需求:
- 视觉+力觉+触觉+IMU 多模态同步流
- VLA 三元组:视觉状态 + 自然语言指令 + 动作轨迹
- 专家示教数据(医生穿戴动捕)
- 物理仿真合成数据(数字孪生手术室)
- 失败恢复轨迹(机器人犯错后怎么回正——极其稀缺)
⚠️ 关键认知:单家医院做不起这类数据,必须和机器人厂商联建。
法律映射:法律具身智能比较少,但庭审录音转写、AI 庭审辅助、AI 法律 KIOSK 终端有具身雏形。
真相:实际产品几乎都是混合型
混合型才是常态,单一类型是教学简化:
- 影像 AI 临床落地 = 数据型(识别)+ 知识型(诊断标准/报告模板)+ 推理型(多病灶联想)
- 患者智能体 = 工作流型(编排)+ 知识型(健康知识库)+ 数据型(个人档案)
- DRG 智能助手 = 数据型(入组模型)+ 知识型(DRG 编码规则)+ 工作流型(嵌入病案首页)
混合型的关键是架构分层:知识库归知识库管,数据集归数据治理管,工作流归 Agent 平台管。很多医院失败在”啥都塞进数据中台”。
推荐建设优先级
按”科技型医疗健康集团”的逻辑:
- 知识型先做(门槛最低、ROI 最快):医保政策、合规、SOP、临床指南——三个月可见效
- 数据型抓两个尖刀:影像共享中心 + DRG/医保智能
- 工作流型抓一个明星案例:患者运营智能体(外购+自建数据底座)
- 推理型最长线:从 MDT 录音结构化开始攒,2-3 年才能见效
- 具身型联建:和机器人厂商共建
这一章金句
没有”万能的高质量医疗数据”,只有”匹配场景的高质量医疗数据”。
先想清楚 AI 要做什么,再决定要建什么数据、按什么标准治理。
下一章:分类讲完了,怎么生产这些数据集?知识工程 / 标注金字塔 / 推理链生产线 / 飞轮工程 / 具身轨迹——一类一套方法论。
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。