系列 · 第 2 章 / 共 12 章
系列:AI 时代医疗高质量数据集的建设模式与路径 →
数据治理 · 6 min 阅读
什么是 AI 时代(2026 视角)
第一章 · 三代 AI 范式与数据角色变迁
2026年5月17日
要谈数据建设,第一件事是先讲清楚我们在哪个时代。
三代 AI 范式
2026 年的 AI 跟两年前完全不是一回事。我把它划成三代:
第一代(2022 前)—— 判别式 AI
- 范式:传统深度学习
- 关键技术:CNN、RNN、人工特征 + 人工标注
- 标志事件:AlphaGo、影像 AI 早期
- 数据要的是:大量标注样本(监督学习的燃料)
第二代(2022 GPT 时刻)—— 生成式基础模型
- 范式:大规模预训练 + 涌现能力
- 关键技术:Transformer 统一架构
- 标志事件:ChatGPT 发布
- 数据要的是:海量未标注语料(预训练的规模红利)
第三代(2026 当下)—— 推理 + 多模态 + 智能体
- 范式:推理模型、多模态原生、智能体协同
- 关键技术:o1/Mythos 类推理模型、VLA、世界模型、Agentic AI
- 标志事件:OpenAI o 系列、Manus、Claude 4 系列
- 数据要的是:高质量推理轨迹 + 多模态对齐 + 智能体交互数据 + 专家级评测集
我的判断:
2022 是 AI 的”文艺复兴”,2026 是 AI 的”工业革命”。前者解决”会不会”,后者解决”干不干得了”。
AGI 不是一个事件,是一条曲线
很多人问 AGI 什么时候来。这个问题问错了。
AGI 不是某天突然到来的里程碑——它是一条逐步爬升的曲线。OpenAI 给了 L1-L5 的能力分级,Anthropic 给了 ASL 安全等级。两套体系都是分级的,不是开关式的。
当前位置:专家级推理(IQ 130-140 区间)正在向天才级(IQ 200+)过渡。我们已经在这条曲线上,问题不是 AGI 来不来,是它来得多快、我们准备好没有。
判断 AI 的能力要看两个维度:
- 能力强度:聪不聪明(IQ)
- 自主性:敢不敢自己干(agency)
这两个维度独立增长。聪明但不自主的,是好工具;聪明又自主的,是新的物种。
范式跃迁,对”数据”意味着什么
这是整套课程的桥接段,也是后面所有章节的前提:
| 代际 | 数据的核心角色 |
|---|---|
| 第一代 | 大量标注样本(监督学习的燃料) |
| 第二代 | 海量未标注语料(预训练的规模红利) |
| 第三代 | 高质量推理轨迹 + 多模态对齐 + 智能体交互数据 + 专家级评测集 |
一句话总结:数据的角色,从”训练燃料”升级为”能力载体和知识资产”。
这一句话决定了后面所有章节的走向——从”治理是为了能用”,变成”建设是为了让 AI 学得对、判得准、敢上临床”。
法律行业怎么看
法律行业完全适用同一个范式表:
- 第一代时期,法律 AI 是”合同标注分类器”——监督学习时代
- 第二代时期,法律 AI 进入大模型驱动的检索/起草——Harvey AI、CoCounsel、北大法宝
- 第三代时期,法律 AI 进入推理时代——图灵翊天用法院全量卷宗 + 法官 SFT 训练,提炼”法律思维链”
法律行业相对医疗的优势是:判决书天然带”裁判理由”,这是天然的高质量推理链数据。这一点我会在第十章详细讲。
下一章:把”数据”这个词讲清楚——元数据、数据集、数据资产、本体到底是什么。
#AI First#AGI#范式变迁
留言
欢迎留言,匿名也可以。填邮箱能收到我的回复通知。