跳到主要内容

人工智能的发展历程

从图灵测试到 Claude Opus 4.7,了解 AI 是如何一步步走到今天的。理解历史,才能判断未来。

为什么 FDE 需要了解 AI 历史

面试中不会直接考历史,但:

  • 理解 为什么 Transformer 能取代 RNN,才能理解推理优化的方向
  • 了解 Scaling Law 的演进,才能预判下一代模型的趋势
  • 知道 每次"AI 寒冬"的原因,才能理性看待当前泡沫

第一次浪潮:符号主义 AI(1950s-1970s)

起源

1950 年,图灵发表论文《Computing Machinery and Intelligence》,提出 图灵测试:如果一台机器能够与人类进行对话,而人类无法区分它是机器还是人,那么这台机器就具有"智能"。

1956 年,达特茅斯会议首次提出 Artificial Intelligence 这一术语,标志着 AI 作为一门独立学科的诞生。

核心思想

智能 = 符号操作
只要把知识用符号表示出来,用逻辑规则推理,就能实现智能

代表性成果

年份成果意义
1956Logic Theorem Prover第一个 AI 程序,证明了罗素《数学原理》中的 38 个定理
1966ELIZA第一个聊天机器人,模拟心理治疗师
1970SHRDLU在受限积木世界中理解自然语言指令

第一次寒冬(1974-1980)

原因:

  • 算力不足:当时的计算机内存只有几 KB,无法支撑有实用价值的系统
  • 组合爆炸:符号推理的复杂度随问题规模指数增长
  • Lighthill Report(1973):英国政府报告认为 AI 研究"大部分是失败的"
  • 资金断崖:DARPA 和英国政府大幅削减 AI 研究经费

第二次浪潮:专家系统与连接主义萌芽(1980s-1990s)

专家系统

专家系统 = 知识库(人工编写规则) + 推理引擎

代表系统:

系统领域规则数效果
MYCIN血液感染诊断~600 条表现优于部分医生
XCONDEC 计算机配置~10,000 条每年为 DEC 节省 $40M

连接主义的复兴

1986 年,Rumelhart、Hinton、Williams 发表 Backpropagation 论文,提出用反向传播训练多层神经网络。

第二次寒冬(1987-1993)

原因:

  • 专家系统维护成本极高:每增加一条规则,可能破坏已有规则
  • 桌面计算机崛起:通用计算机性能提升,专用 AI 硬件失去优势
  • 神经网络再次被质疑:只能处理很小规模的问题

第三次浪潮:深度学习(2006-2017)

关键突破

年份突破意义
2006Hinton 提出 Deep Belief Network"深度学习"一词诞生
2012AlexNet — GPU 训练的 CNN 在 ImageNet 夺冠误差率从 26% 降到 15.3%,开启深度学习革命
2014GAN — 生成对抗网络开启了生成式 AI 的先河
2014Seq2Seq — 编码器-解码器架构机器翻译、文本生成的基础
2015ResNet — 残差网络可训练 100+ 层的网络,CV 领域里程碑

AlexNet 为什么重要

AlexNet 是第一个真正用 GPU 训练的深度学习模型:

CPU 训练:几周
GPU 训练:几天

GPU 的并行计算能力恰好匹配神经网络的海量矩阵运算
→ 从此 GPU 成为 AI 训练和推理的标准硬件

这与 FDE 的关系:从 AlexNet 开始,AI 系统的性能优化就与 GPU 硬件深度绑定了。

RNN 的统治与局限

在 Transformer 出现之前,RNN(及其变体 LSTM、GRU)是 NLP 的主流架构:

RNN 的核心问题:无法并行训练。序列数据必须从左到右一步步处理,这在 GPU 上是巨大的浪费。


Transformer 时代(2017-2020)

转折点:Attention Is All You Need(2017)

Google 提出 Transformer 架构,完全抛弃 RNN,只用 Self-Attention。

维度RNN/LSTMTransformer
训练并行度低(序列依赖)高(全局并行)
长距离依赖差(即使有 LSTM)好(直接 Attention)
复杂度O(n) 步O(1) 步(但 Attention 是 O(n^2))
效果BLEU ~25BLEU ~28(翻译任务)

BERT(2018)

Google 用 Transformer Encoder 做预训练,在 11 个 NLP 任务上达到 SOTA。

预训练:在海量无标签文本上训练

微调:在特定任务上用少量标注数据调整

成为 NLP 的标准做法

GPT 系列

模型年份参数量关键创新
GPT-12018117M预训练 + 微调范式
GPT-220191.5B无监督多任务能力,Zero-shot
GPT-32020175BIn-context Learning,Few-shot
GPT-42023~1.8T多模态、复杂推理
GPT-52025不公开长链推理、代码生成、steerability
Claude Opus 4.72026不公开软件工程能力飞跃,混合推理

GPT-3 的 In-context Learning 是范式转变:不需要微调,只需在 prompt 里给几个例子,模型就能完成任务。


大语言模型时代(2020-2023)

Scaling Law(2020)

OpenAI 发表论文,发现一个规律:

模型性能 ∝ (计算量)^a × (数据量)^b × (参数量)^c

其中 a ≈ b ≈ c ≈ 0.05

结论:只要增加计算、数据、参数,性能就会稳定提升

这个发现直接推动了后续的"军备竞赛":

ChatGPT 与对齐(2022)

GPT-3 → InstructGPT → ChatGPT

关键步骤:
1. 预训练(Pre-training):海量文本上学习语言模型
2. 监督微调(SFT):用人工标注的指令数据微调
3. RLHF:用人类反馈强化学习对齐输出
a. 训练 Reward Model(人类标注偏好)
b. PPO 优化策略(最大化 reward)

RLHF 是 ChatGPT 成功的关键。GPT-3 本身能力很强但"不听话",RLHF 让它能遵循指令、拒绝有害请求。

开源崛起(2023)

项目机构意义
LlamaMeta第一个大规模开源 LLM
AlpacaStanford用 52K 指令数据微调 Llama,效果接近 GPT-3.5
Mistral 7BMistral AI7B 参数超越 Llama 2 13B
Qwen阿里中文能力最强的开源模型之一
DeepSeek V3DeepSeek671B 参数 MoE,仅 37B 激活,开源标杆
LLaMA 4Meta2026 年开源旗舰,多模态 + MoE

多模态、Reasoning 与 Agent 时代(2023-2026)

多模态大模型

Reasoning 模型革命

2025 年开始,模型从"直接回答"转向"先思考再回答":

  • Chain-of-Thought (CoT):模型生成中间推理步骤,大幅提升复杂任务准确率
  • GPT-5 (2025):引入长链推理能力,代码生成和数学推理显著改善
  • Claude Opus 4.7 (2026):混合推理模型,在软件工程等复杂任务上表现突出
  • Gemini 3.1 Pro (2026):推理 + 多模态 + 编程三位一体

FDE 视角:Reasoning 模型的思考过程产生大量隐藏 token(可达最终回答的 5-10x),TTFT 和 KV Cache 成为全新优化战场。

Agent 系统

2023 年开始,研究从"模型本身"转向"如何使用模型":

  • ReAct:推理 + 行动的交替执行
  • Tool Use:模型调用外部工具(搜索、代码执行、API)
  • Multi-Agent:多个 Agent 协作完成复杂任务
  • Agentic Coding (2025-2026):Claude Opus 4.7、GPT-5 Codex 等模型可以自主完成长周期软件开发任务

FDE 视角:从历史看未来

对岗位的影响

时代FDE 的角色核心技能
2020 前模型服务化Docker、REST API
2020-2022大规模推理GPU 集群、分布式
2023-2024推理优化vLLM、量化、KV Cache
2025-2026推理规模化 + Agentic 部署Reasoning 优化、Agentic 架构、FP4 量化、端侧推理

每次技术变革带来的新优化点

RNN → Transformer:
新优化点:KV Cache、Attention 加速

单模态 → 多模态:
新优化点:图像/视频 encoder 的推理加速

单模型 → Agent:
新优化点:多轮调用的延迟优化、工具调用的缓存

这些变化意味着 FDE 的技能栈需要持续更新。

面试视角

Q: "说说 AI 发展历程中几个关键转折点?"

回答框架:

  1. 2012 AlexNet — GPU + CNN,深度学习革命开始
  2. 2017 Transformer — 完全并行化,取代 RNN
  3. 2020 GPT-3 + Scaling Law — 证明"大就是好",In-context Learning
  4. 2022 ChatGPT + RLHF — 对齐技术让模型"听话"
  5. 2023 开源 LLM 爆发 — Llama、Mistral、Qwen,降低使用门槛

Q: "为什么 GPU 成为 AI 的标准硬件?"

  • AlexNet(2012)首次用 GPU 训练 CNN,速度提升 50x
  • GPU 的 SIMD 架构天然匹配矩阵乘法
  • 从此 AI 和 GPU 深度绑定,FDE 必须理解 GPU 架构

下一节:什么是 FDE