数据未来演进 · 从分析数据到 AI 大脑

第八章 · 数据飞轮与未来三大趋势

2026年5月17日

数据飞轮结构图

前面讲的是”现在怎么做”。这一章把视角拉到未来两三年，看数据会怎么演进。

核心变化可以概括成一句：

前两个时代的数据是被使用，第三个时代的数据是在使用中被生产。

这就是数据飞轮。

数据用途的三个时代

数据用途三个时代结构图

数据用途大致经历了三个阶段：

第一阶段：分析数据。
数据用来看清现状，支撑报表、BI、经营分析、质量管理。

第二阶段：AI 燃料。
数据用来训练模型，谁的数据更多、更干净、更有代表性，谁的模型就更强。

第三阶段：AI 大脑。
数据不只是输入，而是组织的知识、推理、反馈和边界。它决定 AI 懂什么、会怎么判断、能不能在真实业务里闭环。

所以，未来的数据建设不再是”把历史数据整理好”，而是设计一种机制，让新数据在业务运行中持续产生。

什么是数据飞轮

数据飞轮的定义是：

AI 在被使用的过程中，不断产生新数据；新数据反过来训练或优化 AI；AI 越好用，越多人用；越多人用，产生越多高质量反馈，形成自我加速的正反馈循环。

飞轮有四个齿轮：

使用 (Use)：医生、患者、律师、法务在真实场景中使用 AI
反馈 (Feedback)：采纳、拒绝、修改、追问、人工干预
沉淀 (Capture)：把交互日志和反馈结构化
进化 (Evolve)：再训练、更新知识库、优化 prompt、做偏好对齐

然后回到使用。

医疗里的三个飞轮

影像 AI 飞轮：医生确认或修正 AI 判读，修正结果回流标注库，季度迭代模型，准确率持续上升。

临床智能体飞轮：CDSS 给出建议，医生采纳或否决，形成偏好数据，反过来做偏好对齐，建议越来越贴近真实临床。

患者智能体飞轮：用户提问和反馈沉淀为未解决问题清单，知识库补全，新工具接入，服务能力不断扩张。

法律行业也一样：

合同审查飞轮：律师修改 AI 建议，偏好回流，模型迭代
法律检索飞轮：律师采纳或否决检索结果，排序模型优化
庭审辅助飞轮：法官采纳的争议焦点提示，成为强化训练数据

飞轮转起来的三大前提

数据飞轮三大前提结构图

很多组织说要做飞轮，但飞轮转不起来，因为缺三个前提。

第一，埋点工程。
从一开始就要把每个交互、反馈点、人工干预点埋进去。上线后再补，往往已经错过最关键的第一批真实使用数据。

第二，专家在环。
医疗和法律不能只靠用户点赞踩。关键节点必须有医生、律师、专家审核，否则飞轮会把噪声也放大。

第三，评估守门。
每次模型或知识库更新前，必须过独立评测集。不能用反馈数据训完直接上线，那会污染评测，引入偏差。

这里有一个反直觉判断：

飞轮转得太快也是风险。医疗和法律里，没有专家在环和评估守门的飞轮，可能把 AI 越转越偏。

法律行业尤其如此。AI 幻觉在法律场景里是灾难，2024-2025 年美国多起律师提交 AI 编造判例的事故，已经被法庭处罚。法律飞轮不是转得越快越好，而是转得越准越好。

三个未来趋势

趋势一：合成数据会比真实数据更重要。
罕见病、长尾场景、隐私敏感场景，靠真实数据永远不够。大模型生成 + 专家校验，已经是推理模型训练的重要方法。医疗里会有合成罕见病病例、合成病理图像、合成 MDT 推理链；法律里会有合成疑难案件、合成跨境合规案例、合成谈判对抗数据。

趋势二：数据从成本变资产，再变要素。
国家”数据二十条”和”数据要素 x”行动计划，已经把数据放进要素市场化的框架里。医院的专科专病高质量数据集，律所的高质量合同库、判例标注库、行业合规库，都会成为未来的隐形资产。

趋势三：评测集会成为最稀缺的数据。
训练数据可以买、可以合成，但评测集决定 AI 能不能上临床、上法庭、进业务闭环。每个专科、每个关键法律场景，都应该有自己的金标准评测题库。

这一点很关键：

模型可以买，临床真理和法律边界不可买。

本章收口

过去数据用来看清现状，现在数据用来训练智能，未来数据用来定义 AI 的临床和法律边界。

组织最大的资产，不是积累了多少数据，而是建起了几个能持续转动、且有专家守门的数据飞轮。

下一章，把所有讨论锚回业务：不是先治理数据，而是从核心竞争力反推数据建设。

#数据飞轮#合成数据#评测集#数据资产

留言

欢迎留言，匿名也可以。填邮箱能收到我的回复通知。

← 返回系列