Aaron 乐
系列 · 第 9 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 6 min 阅读

数据未来演进 · 从分析数据到 AI 大脑

第八章 · 数据飞轮与未来三大趋势

2026年5月17日

数据飞轮结构图

前面讲的是”现在怎么做”。这一章把视角拉到未来两三年,看数据会怎么演进。

核心变化可以概括成一句:

前两个时代的数据是被使用,第三个时代的数据是在使用中被生产。

这就是数据飞轮。

数据用途的三个时代

数据用途三个时代结构图

数据用途大致经历了三个阶段:

第一阶段:分析数据。
数据用来看清现状,支撑报表、BI、经营分析、质量管理。

第二阶段:AI 燃料。
数据用来训练模型,谁的数据更多、更干净、更有代表性,谁的模型就更强。

第三阶段:AI 大脑。
数据不只是输入,而是组织的知识、推理、反馈和边界。它决定 AI 懂什么、会怎么判断、能不能在真实业务里闭环。

所以,未来的数据建设不再是”把历史数据整理好”,而是设计一种机制,让新数据在业务运行中持续产生。

什么是数据飞轮

数据飞轮的定义是:

AI 在被使用的过程中,不断产生新数据;新数据反过来训练或优化 AI;AI 越好用,越多人用;越多人用,产生越多高质量反馈,形成自我加速的正反馈循环。

飞轮有四个齿轮:

  1. 使用 (Use):医生、患者、律师、法务在真实场景中使用 AI
  2. 反馈 (Feedback):采纳、拒绝、修改、追问、人工干预
  3. 沉淀 (Capture):把交互日志和反馈结构化
  4. 进化 (Evolve):再训练、更新知识库、优化 prompt、做偏好对齐

然后回到使用。

医疗里的三个飞轮

影像 AI 飞轮:医生确认或修正 AI 判读,修正结果回流标注库,季度迭代模型,准确率持续上升。

临床智能体飞轮:CDSS 给出建议,医生采纳或否决,形成偏好数据,反过来做偏好对齐,建议越来越贴近真实临床。

患者智能体飞轮:用户提问和反馈沉淀为未解决问题清单,知识库补全,新工具接入,服务能力不断扩张。

法律行业也一样:

飞轮转起来的三大前提

数据飞轮三大前提结构图

很多组织说要做飞轮,但飞轮转不起来,因为缺三个前提。

第一,埋点工程。
从一开始就要把每个交互、反馈点、人工干预点埋进去。上线后再补,往往已经错过最关键的第一批真实使用数据。

第二,专家在环。
医疗和法律不能只靠用户点赞踩。关键节点必须有医生、律师、专家审核,否则飞轮会把噪声也放大。

第三,评估守门。
每次模型或知识库更新前,必须过独立评测集。不能用反馈数据训完直接上线,那会污染评测,引入偏差。

这里有一个反直觉判断:

飞轮转得太快也是风险。医疗和法律里,没有专家在环和评估守门的飞轮,可能把 AI 越转越偏。

法律行业尤其如此。AI 幻觉在法律场景里是灾难,2024-2025 年美国多起律师提交 AI 编造判例的事故,已经被法庭处罚。法律飞轮不是转得越快越好,而是转得越准越好。

三个未来趋势

趋势一:合成数据会比真实数据更重要。
罕见病、长尾场景、隐私敏感场景,靠真实数据永远不够。大模型生成 + 专家校验,已经是推理模型训练的重要方法。医疗里会有合成罕见病病例、合成病理图像、合成 MDT 推理链;法律里会有合成疑难案件、合成跨境合规案例、合成谈判对抗数据。

趋势二:数据从成本变资产,再变要素。
国家”数据二十条”和”数据要素 x”行动计划,已经把数据放进要素市场化的框架里。医院的专科专病高质量数据集,律所的高质量合同库、判例标注库、行业合规库,都会成为未来的隐形资产。

趋势三:评测集会成为最稀缺的数据。
训练数据可以买、可以合成,但评测集决定 AI 能不能上临床、上法庭、进业务闭环。每个专科、每个关键法律场景,都应该有自己的金标准评测题库。

这一点很关键:

模型可以买,临床真理和法律边界不可买。

本章收口

过去数据用来看清现状,现在数据用来训练智能,未来数据用来定义 AI 的临床和法律边界。

组织最大的资产,不是积累了多少数据,而是建起了几个能持续转动、且有专家守门的数据飞轮。

下一章,把所有讨论锚回业务:不是先治理数据,而是从核心竞争力反推数据建设。

#数据飞轮#合成数据#评测集#数据资产

留言

欢迎留言,匿名也可以。填邮箱能收到我的回复通知。

← 返回系列