数据未来演进 · 从分析数据到 AI 大脑
第八章 · 数据飞轮与未来三大趋势
前面讲的是”现在怎么做”。这一章把视角拉到未来两三年,看数据会怎么演进。
核心变化可以概括成一句:
前两个时代的数据是被使用,第三个时代的数据是在使用中被生产。
这就是数据飞轮。
数据用途的三个时代
数据用途大致经历了三个阶段:
第一阶段:分析数据。
数据用来看清现状,支撑报表、BI、经营分析、质量管理。
第二阶段:AI 燃料。
数据用来训练模型,谁的数据更多、更干净、更有代表性,谁的模型就更强。
第三阶段:AI 大脑。
数据不只是输入,而是组织的知识、推理、反馈和边界。它决定 AI 懂什么、会怎么判断、能不能在真实业务里闭环。
所以,未来的数据建设不再是”把历史数据整理好”,而是设计一种机制,让新数据在业务运行中持续产生。
什么是数据飞轮
数据飞轮的定义是:
AI 在被使用的过程中,不断产生新数据;新数据反过来训练或优化 AI;AI 越好用,越多人用;越多人用,产生越多高质量反馈,形成自我加速的正反馈循环。
飞轮有四个齿轮:
- 使用 (Use):医生、患者、律师、法务在真实场景中使用 AI
- 反馈 (Feedback):采纳、拒绝、修改、追问、人工干预
- 沉淀 (Capture):把交互日志和反馈结构化
- 进化 (Evolve):再训练、更新知识库、优化 prompt、做偏好对齐
然后回到使用。
医疗里的三个飞轮
影像 AI 飞轮:医生确认或修正 AI 判读,修正结果回流标注库,季度迭代模型,准确率持续上升。
临床智能体飞轮:CDSS 给出建议,医生采纳或否决,形成偏好数据,反过来做偏好对齐,建议越来越贴近真实临床。
患者智能体飞轮:用户提问和反馈沉淀为未解决问题清单,知识库补全,新工具接入,服务能力不断扩张。
法律行业也一样:
- 合同审查飞轮:律师修改 AI 建议,偏好回流,模型迭代
- 法律检索飞轮:律师采纳或否决检索结果,排序模型优化
- 庭审辅助飞轮:法官采纳的争议焦点提示,成为强化训练数据
飞轮转起来的三大前提
很多组织说要做飞轮,但飞轮转不起来,因为缺三个前提。
第一,埋点工程。
从一开始就要把每个交互、反馈点、人工干预点埋进去。上线后再补,往往已经错过最关键的第一批真实使用数据。
第二,专家在环。
医疗和法律不能只靠用户点赞踩。关键节点必须有医生、律师、专家审核,否则飞轮会把噪声也放大。
第三,评估守门。
每次模型或知识库更新前,必须过独立评测集。不能用反馈数据训完直接上线,那会污染评测,引入偏差。
这里有一个反直觉判断:
飞轮转得太快也是风险。医疗和法律里,没有专家在环和评估守门的飞轮,可能把 AI 越转越偏。
法律行业尤其如此。AI 幻觉在法律场景里是灾难,2024-2025 年美国多起律师提交 AI 编造判例的事故,已经被法庭处罚。法律飞轮不是转得越快越好,而是转得越准越好。
三个未来趋势
趋势一:合成数据会比真实数据更重要。
罕见病、长尾场景、隐私敏感场景,靠真实数据永远不够。大模型生成 + 专家校验,已经是推理模型训练的重要方法。医疗里会有合成罕见病病例、合成病理图像、合成 MDT 推理链;法律里会有合成疑难案件、合成跨境合规案例、合成谈判对抗数据。
趋势二:数据从成本变资产,再变要素。
国家”数据二十条”和”数据要素 x”行动计划,已经把数据放进要素市场化的框架里。医院的专科专病高质量数据集,律所的高质量合同库、判例标注库、行业合规库,都会成为未来的隐形资产。
趋势三:评测集会成为最稀缺的数据。
训练数据可以买、可以合成,但评测集决定 AI 能不能上临床、上法庭、进业务闭环。每个专科、每个关键法律场景,都应该有自己的金标准评测题库。
这一点很关键:
模型可以买,临床真理和法律边界不可买。
本章收口
过去数据用来看清现状,现在数据用来训练智能,未来数据用来定义 AI 的临床和法律边界。
组织最大的资产,不是积累了多少数据,而是建起了几个能持续转动、且有专家守门的数据飞轮。
下一章,把所有讨论锚回业务:不是先治理数据,而是从核心竞争力反推数据建设。
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。