大模型前世今生：从 RNN 到 GPT 的完整进化史

2026-03-07·18 分钟阅读·AI LLM 深度学习教程

前言

大模型火了两年多，信息满天飞，但大部分内容要么太学术（上来就是公式），要么太碎片（只讲某个模型或技巧）。

我一直想找一篇文章，能从头到尾把大模型的来龙去脉讲清楚——不是论文综述，而是开发者视角的技术地图。找了一圈没找到满意的，干脆自己写一篇。

这篇文章面向有编程基础、想系统理解大模型全貌的开发者。读完后你会知道：大模型从哪来、怎么工作、主流选手有哪些、核心概念是什么、以及怎么开始学。

一、NLP 简史：从规则到神经网络

在聊大模型之前，先快速回顾 NLP（自然语言处理）的演进。这段历史能帮你理解为什么 Transformer 的出现是一次质变。

1950s ──── 规则系统（手写语法规则，脆弱但可解释）
  │
1990s ──── 统计方法（TF-IDF、n-gram、朴素贝叶斯）
  │         └─ 用概率替代规则，但特征全靠人工设计
  │
2003  ──── 神经语言模型（Bengio，用神经网络学词的表示）
  │
2013  ──── Word2Vec ⭐（词向量革命）
  │         └─ "国王 - 男人 + 女人 ≈ 女王"
  │
2014  ──── Seq2Seq（编码器-解码器，机器翻译突破）
  │
2015  ──── Attention 机制（不再平等对待每个词）
  │
2017  ──── Transformer ⭐⭐⭐（改变一切）
  │
2018+ ──── BERT、GPT 系列、大模型时代开启

几个关键节点

Word2Vec（2013） 是第一个让普通开发者感受到"AI 懂语言"的时刻。它把每个词映射成一个向量（比如 300 维），词义相近的词在向量空间里距离也近。更神奇的是，向量之间的运算居然能捕捉语义关系。

Seq2Seq + Attention（2014-2015） 解决了"输入一个序列、输出另一个序列"的问题（比如翻译）。Attention 机制让模型在生成每个词时，能"回头看"输入中最相关的部分，而不是把整个输入压缩成一个固定向量。

这两个突破直接铺垫了 Transformer 的诞生。

二、Transformer：改变一切的论文（2017）

2017 年，Google 的一篇论文 "Attention Is All You Need" 提出了 Transformer 架构。标题很狂，但确实改变了一切。

2.1 核心思想：Self-Attention

Transformer 之前的模型（RNN/LSTM）处理文本是串行的——一个词一个词地读，像你从左到右读一句话。这导致两个问题：训练慢（无法并行），长距离依赖容易丢失（读到句尾忘了句首）。

Self-Attention 的思路完全不同。想象你在读一句话：

"那只猫坐在垫子上，因为它很累。"

当你读到"它"的时候，你的大脑会自动关联到"猫"。Self-Attention 做的就是这件事——让句子中的每个词都能直接"看到"其他所有词，并计算它们之间的关联强度。

不用串行，所有词同时处理，关联关系一步算出。这就是为什么 Transformer 能并行训练，速度比 RNN 快一个数量级。

2.1.1 Q/K/V：Self-Attention 的具体机制

Self-Attention 的计算过程可以用一个比喻来理解：想象你在图书馆找书。

Query（查询）：你脑子里的问题——"我想找关于机器学习的书"
Key（键）：每本书封面上的标签——"机器学习"、"烹饪"、"历史"
Value（值）：书的实际内容

过程是：用你的 Query 去匹配每本书的 Key，匹配度高的书（Value）你就多看几眼，匹配度低的就略过。

在 Transformer 中，每个词都会生成自己的 Q、K、V 向量（通过三个不同的线性变换）。然后：

1. 计算注意力分数：Score = Q × K^T（每个词对其他所有词的关注度）
2. 缩放：Score / √d_k（防止数值过大导致 softmax 梯度消失）
3. Softmax 归一化：把分数变成概率分布
4. 加权求和：用概率对 V 加权，得到最终输出

公式写出来就是：Attention(Q, K, V) = softmax(QK^T / √d_k) V

实际的 Transformer 还用了 Multi-Head Attention——把 Q/K/V 分成多组（比如 8 组或 32 组），每组独立计算注意力，最后拼接起来。这样模型可以同时关注不同类型的关系（比如一组关注语法关系，一组关注语义关系）。

2.1.2 位置编码（Positional Encoding）

Self-Attention 有一个问题：它对词的顺序完全无感。"猫追狗"和"狗追猫"在纯 Self-Attention 看来是一样的。

解决方案是给每个位置加上一个位置编码向量。原始 Transformer 用的是正弦/余弦函数生成的固定编码，后来的模型（如 RoPE，被 LLaMA 和大多数现代模型采用）改用了旋转位置编码，能更好地处理长序列。

2.2 Encoder vs Decoder

Transformer 原始架构有两部分：

┌─────────────┐    ┌─────────────┐
│   Encoder   │───→│   Decoder   │
│  （理解输入）│    │ （生成输出）│
└─────────────┘    └─────────────┘

Encoder：读取整个输入，生成上下文表示。每个词都能看到所有其他词（双向）。
Decoder：逐步生成输出。每个词只能看到它前面的词（单向），加上 Encoder 的输出。

后来的模型根据任务需要，选择了不同的组合：

只用 Encoder → BERT（擅长理解）
只用 Decoder → GPT（擅长生成）
两者都用 → T5（翻译、摘要）

2.3 Tokenization：模型怎么"读"文字

模型不直接处理文字，而是先把文本切成 token（词元）。主流方法是 BPE（Byte Pair Encoding）：

"unhappiness" → ["un", "happiness"] 或 ["un", "happ", "iness"]
中文通常按字或子词切分："大语言模型" → ["大", "语言", "模型"]

不同模型的 tokenizer 不同，这也是为什么同样的文本在不同模型里消耗的 token 数不一样。

三、大模型进化路线

Transformer 之后，大模型沿着三条路线发展：

3.1 Encoder 路线：理解型

BERT（2018） 是第一个让人惊呼"NLP 被革命了"的模型。它用 Encoder 架构，通过"完形填空"（Masked Language Model）的方式预训练——随机遮住句子中的词，让模型猜。

输入：今天天气 [MASK] 好
预测：[MASK] → 很

BERT 擅长理解类任务：文本分类、情感分析、问答、命名实体识别。后续的 RoBERTa、DeBERTa 在训练策略上做了优化，但核心架构没变。

3.2 Decoder 路线：生成型（主流）

GPT 系列走的是另一条路——只用 Decoder，通过"预测下一个词"来训练：

输入：今天天气
预测：→ 很 → 好 → 。

看起来简单，但当模型足够大、数据足够多时，这个简单的目标产生了惊人的能力。

GPT-1（2018）：1.17 亿参数，证明了"预训练 + 微调"的范式
GPT-2（2019）：15 亿参数，生成质量好到 OpenAI 一度不敢开源
GPT-3（2020）：1750 亿参数，展示了 few-shot 能力（不用微调，给几个例子就能做任务）
GPT-4（2023）：多模态，能力全面跃升
GPT-4o / o1 / o3（2024-2025）：多模态原生、推理链（Chain of Thought）增强

3.3 Encoder-Decoder 路线

T5（Google, 2019）把所有 NLP 任务统一成"文本到文本"的格式：

翻译：  "translate English to French: Hello" → "Bonjour"
摘要：  "summarize: [长文本]" → "[摘要]"
分类：  "classify: I love this movie" → "positive"

BART（Meta）也是这条路线。这类模型在翻译、摘要等任务上表现优秀，但在通用对话场景中逐渐被纯 Decoder 模型超越。

3.4 Scaling Laws：大力出奇迹

2020 年 OpenAI 发表了 Scaling Laws 论文，揭示了一个规律：模型性能与三个因素呈幂律关系——

参数量（模型大小）
数据量（训练数据）
计算量（训练算力）

只要按比例扩大这三者，模型性能就会持续提升，而且目前还没看到明显的天花板。这就是为什么各家公司疯狂堆参数、抢 GPU。

但故事还有下半场。2022 年 DeepMind 发表了 Chinchilla 论文，修正了 Scaling Laws 的一个关键结论：之前的大模型普遍"参数过多、数据不足"。Chinchilla 证明，在固定算力预算下，参数量和数据量应该等比例扩大。一个 70B 参数但用更多数据训练的模型，可以超越 280B 参数但数据不足的模型。

这个发现直接影响了后续模型的训练策略——LLaMA 系列就是 Chinchilla 理念的实践者，用相对较小的参数量配合充足的训练数据，达到了远超预期的效果。

3.5 涌现能力（Emergent Abilities）

更有趣的是，当模型规模超过某个阈值时，会突然出现小模型完全不具备的能力——比如多步推理、代码生成、数学解题。这些能力不是被显式训练的，而是"涌现"出来的。

这也是为什么大模型让人兴奋又让人不安：我们造出了一个能力超出预期的系统，但并不完全理解它为什么能做到。

四、主流大模型全景图

截至 2026 年初，主流大模型格局如下：

模型	公司	参数量	开源	核心特点
GPT-4o	OpenAI	未公开	否	多模态原生，速度快
o1 / o3	OpenAI	未公开	否	推理增强，擅长数学/代码
Claude 4 系列	Anthropic	未公开	否	长上下文（200K），安全对齐领先
Gemini 2.5	Google	未公开	否	多模态强，100万 token 上下文
LLaMA 3	Meta	8B-405B	是	开源标杆，社区生态丰富
DeepSeek V3 / R1	DeepSeek	671B (MoE)	是	性价比极高，推理能力强
Qwen 2.5	阿里	0.5B-72B	是	中文能力优秀，模型尺寸全
Mistral Large	Mistral	未公开	部分	欧洲代表，效率优先
GLM-4	智谱	未公开	部分	中文原生，工具调用能力强

几个趋势：

开源 vs 闭源：开源模型（LLaMA、DeepSeek、Qwen）能力快速追赶闭源，差距在缩小
MoE 架构：DeepSeek V3 用 671B 参数但只激活 37B，推理成本大幅降低
推理增强：o1/o3、DeepSeek R1 代表了"让模型思考更久"的方向
长上下文：从 4K → 32K → 128K → 200K → 1M，上下文窗口持续扩大

五、深入 Anthropic 与 Claude：AI 安全的理想主义者

在主流大模型的版图中，Anthropic 和它的 Claude 系列是一个特殊的存在。它不是最早的，也不是参数最大的，但它代表了一种独特的技术路线和价值观。理解 Anthropic 的故事，能帮你看清大模型发展中一条常被忽视但极其重要的线索——AI 安全与对齐。

5.1 起源：从 OpenAI 出走

2021 年，Dario Amodei 和 Daniela Amodei 兄妹带领一批核心研究员离开了 OpenAI，创立了 Anthropic。

这不是一次普通的跳槽。Dario 当时是 OpenAI 的研究副总裁（VP of Research），是 GPT-2 和 GPT-3 项目的核心领导者之一。Daniela 则是 OpenAI 的运营副总裁。跟随他们离开的还有多位在 Scaling Laws、RLHF 等关键研究中做出重要贡献的研究员。

离开的原因，用一句话概括：他们认为 OpenAI 在商业化的道路上走得太快，对 AI 安全的重视不够。

这个分歧在今天看来更加清晰。OpenAI 从非营利转向"有限营利"，再到后来的种种争议，某种程度上验证了 Amodei 兄妹当初的担忧。而 Anthropic 从第一天起就把自己定位为一家"AI 安全公司"——不是做安全的 AI 产品公司，而是一家以安全研究为核心使命的公司，恰好也做产品。

5.2 Constitutional AI：Claude 的灵魂

Anthropic 对大模型领域最重要的理论贡献是 Constitutional AI（宪法 AI），发表于 2022 年底。这也是 Claude 区别于其他模型的核心技术。

传统的 RLHF 流程是这样的：

模型生成多个回答 → 人类标注员排序 → 训练奖励模型 → 强化学习优化

这个流程有几个问题：

成本高：需要大量人类标注员，而且标注质量参差不齐
不透明：模型学到的"偏好"隐含在奖励模型中，难以审查
不一致：不同标注员的判断标准不同，导致模型行为不稳定

Constitutional AI 的思路完全不同：

1. 给模型一套明确的原则（"宪法"），比如：
   - "选择最不可能被有害的人利用的回答"
   - "选择最诚实、最不具欺骗性的回答"
   - "选择对敏感话题最谨慎的回答"

2. 让模型自我批评：
   模型生成回答 → 模型根据原则评估自己的回答 → 模型修改回答

3. 用模型自我改进的数据来训练（RLAIF：AI 反馈的强化学习）

这种方法的优势在于：

可扩展：不依赖大量人类标注
透明：原则是明确写出来的，可以审查和修改
一致：同一套原则产生一致的行为标准

Constitutional AI 不仅是一种训练技术，更是一种理念——与其让模型通过模仿人类偏好来学习"什么是好的"，不如给它一套明确的价值观框架，让它自己学会判断。

5.3 Claude 系列演进

Claude 的发展历程，也是 Anthropic 技术能力快速成长的缩影：

2023.03 ── Claude 1
            └─ 首次公开发布，展示了 Constitutional AI 的实际效果
            └─ 在安全性和有用性之间找到了不错的平衡

2023.07 ── Claude 2
            └─ 100K token 上下文窗口（当时的突破性数字）
            └─ 能力全面提升，开始被企业认真考虑

2024.03 ── Claude 3 系列 ⭐
            └─ 首次推出三档定位：Haiku（快）/ Sonnet（均衡）/ Opus（强）
            └─ Opus 在多项基准测试中首次超越 GPT-4
            └─ 标志着 Anthropic 从"安全但能力一般"到"安全且能力顶尖"的转变

2024.06 ── Claude 3.5 Sonnet ⭐⭐
            └─ 性价比标杆：中等价格，接近 Opus 的能力
            └─ 编程能力突出，成为开发者的首选之一
            └─ 推出 Artifacts 功能，模型可以直接生成可交互的内容

2025    ── Claude 4 系列 ⭐⭐⭐
            └─ Opus / Sonnet / Haiku 全线升级
            └─ 200K token 上下文，长文本处理能力业界领先
            └─ 推理、编程、多语言能力全面跃升
            └─ Claude Code 成为最强 AI 编程助手之一

5.4 Claude 的技术特色

Claude 在几个维度上形成了自己的差异化优势：

长上下文与信息检索能力

Claude 的 200K token 上下文窗口不只是数字大。在 "Needle in a Haystack" 测试（在超长文本中找到一个特定信息片段）中，Claude 的表现一直处于顶尖水平。这意味着你可以把整个代码库、完整的技术文档丢给它，它真的能找到并利用其中的关键信息。

诚实性优先

大多数模型在不确定时倾向于"编一个看起来合理的答案"。Claude 的训练目标明确包含诚实性——它更倾向于说"我不确定"或"我可能是错的"，而不是自信地胡说。这在实际使用中非常重要，因为一个承认不确定性的模型比一个总是自信满满的模型更值得信赖。

指令遵循能力

Claude 对复杂、多步骤、带约束条件的指令理解能力很强。比如"用 Python 写一个函数，要求：不使用第三方库、时间复杂度 O(n log n)、包含类型注解、处理边界情况"——这种多约束指令，Claude 的遵循率明显高于大多数竞品。

编程能力与 Claude Code

Claude Code 是目前最受开发者欢迎的 AI 编程工具之一。它不只是"能写代码"，而是能理解整个项目的上下文、读懂现有代码的设计意图、在修改时保持代码风格一致。这背后是 Claude 在代码理解和生成上的系统性优势。

5.5 Anthropic 对大模型生态的影响

Anthropic 的影响力远超 Claude 产品本身：

推动行业安全意识：Anthropic 的研究（如 Constitutional AI、模型可解释性研究）让整个行业更重视 AI 安全。Google、Meta 等公司的对齐研究都受到了 Anthropic 工作的影响。
可解释性研究的先驱：Anthropic 在"理解模型内部在想什么"这个方向上投入了大量资源。他们的 Mechanistic Interpretability 研究试图打开神经网络的黑箱，理解每个神经元在做什么。这是一个极其困难但极其重要的方向。
MCP 协议：Anthropic 提出的 Model Context Protocol 试图建立一个开放标准，让任何模型都能以统一的方式连接外部工具和数据源。如果 MCP 成为行业标准，它将极大地降低 AI 应用的开发门槛。
从对话到行动：Claude Code 和 Agent SDK 代表了 AI 从"聊天机器人"到"自主执行者"的转变。这不只是产品形态的变化，而是 AI 能力边界的扩展。

从某种意义上说，Anthropic 的存在让大模型的竞争不只是"谁更聪明"的比赛，还加入了"谁更安全、谁更负责任"的维度。这对整个行业的健康发展是有益的。

六、关键概念解析

这一节拆解大模型领域最重要的概念。每个概念我都会说清楚：它是什么、为什么重要、怎么用。

6.1 Pre-training → Fine-tuning → Alignment

大模型的训练分三个阶段：

阶段一：预训练（Pre-training）
  └─ 用海量文本训练，学会"语言"本身
  └─ 产出：基座模型（Base Model）—— 能续写文本，但不会对话

阶段二：指令微调（Instruction Fine-tuning / SFT）
  └─ 用"指令-回答"数据对训练
  └─ 产出：能理解指令、进行对话的模型

阶段三：对齐（Alignment）
  └─ RLHF / RLAIF / Constitutional AI
  └─ 产出：安全、有用、诚实的模型

你用的 ChatGPT、Claude 都是经过这三个阶段的模型。基座模型就像一个读了所有书的学者，但不懂社交礼仪；对齐后的模型才是一个既博学又得体的助手。

6.2 RLHF 与 Constitutional AI

RLHF（Reinforcement Learning from Human Feedback） 是 ChatGPT 成功的关键技术之一：

让人类标注员对模型的多个回答排序（哪个更好）
用这些排序数据训练一个"奖励模型"
用强化学习让模型朝着"人类偏好"的方向优化

Constitutional AI 是 Anthropic（Claude 的公司）提出的方法：用一组"宪法原则"（比如"要诚实"、"不要有害"）来指导模型自我改进，减少对人类标注的依赖。

6.3 Prompt Engineering

Prompt Engineering 是与大模型交互的核心技能。几个关键技巧：

System Prompt：设定模型的角色和行为规则
Few-shot：给几个示例，让模型理解你要的格式和风格
Chain of Thought（CoT）：让模型"一步步思考"，显著提升推理准确率
ReAct：结合推理（Reasoning）和行动（Acting），让模型能调用工具

# CoT 示例
问：一个房间有 3 扇窗户，每扇窗户有 2 块玻璃，一共多少块玻璃？

不用 CoT：6（直接给答案，有时会错）

用 CoT：
- 房间有 3 扇窗户
- 每扇窗户有 2 块玻璃
- 3 × 2 = 6 块玻璃
答案：6

6.4 RAG：检索增强生成

RAG（Retrieval-Augmented Generation）解决了大模型的两个痛点：

知识时效性：模型训练数据有截止日期，RAG 可以接入最新信息
幻觉：模型可能编造事实，RAG 让模型基于检索到的真实文档回答

用户提问 → 检索相关文档 → 把文档 + 问题一起给模型 → 生成有据可查的回答

RAG 是目前企业落地大模型最常用的方案，因为它不需要微调模型，只需要维护好知识库。

6.5 Function Calling & Tool Use

大模型本身只能生成文本，但通过 Function Calling，它可以调用外部工具：

用户：北京今天天气怎么样？
模型：（决定调用天气 API）→ get_weather(city="北京")
系统：（执行 API，返回结果）→ 晴，25°C
模型：北京今天晴天，气温 25°C。

这让模型从"只会说"变成"能做事"，是构建 AI 应用的基础能力。

6.6 Agent：从对话到自主执行

Agent 是大模型的进阶形态——不再是一问一答，而是能自主规划、执行多步任务：

用户：帮我分析这个 CSV 文件，找出销售额最高的产品，生成图表

Agent 执行：
1. 读取 CSV 文件
2. 分析数据结构
3. 编写分析代码
4. 执行代码生成图表
5. 总结发现并展示结果

Claude Code 就是一个典型的 Agent——你给它一个任务，它会自己读代码、写代码、运行测试、修复错误。

6.7 MCP：Model Context Protocol

MCP 是 Anthropic 提出的开放协议，目标是标准化模型与外部工具/数据源的连接方式。你可以把它理解为"AI 的 USB 接口"：

统一的工具描述格式
标准化的调用协议
任何模型都能接入任何 MCP 服务器

这意味着你写一个 MCP 服务器（比如连接数据库），所有支持 MCP 的模型都能用。

6.8 多模态

早期大模型只处理文本，现在主流模型都在走向多模态：

文本 + 图像：GPT-4o、Claude 4、Gemini（看图理解、图像生成）
文本 + 音频：GPT-4o 原生语音对话
文本 + 视频：Gemini 支持视频理解
文本 + 代码执行：Claude Code、ChatGPT Code Interpreter

多模态不是简单地把多个模型拼在一起，而是在一个模型内部统一理解不同模态的信息。

七、大模型的局限与挑战

大模型很强，但远非完美。了解局限才能更好地使用它。

7.1 幻觉（Hallucination）

模型会一本正经地编造不存在的事实、虚构引用、捏造数据。这不是 bug，而是生成式模型的本质特征——它优化的是"看起来合理"，而不是"事实正确"。

应对：RAG、让模型引用来源、人工审核关键信息。

7.2 上下文窗口限制

虽然上下文窗口在不断扩大（Claude 已到 200K token），但仍然有限。超长文档处理时，模型对中间部分的注意力会下降（"Lost in the Middle" 问题）。

7.3 推理成本

大模型推理需要大量 GPU，成本不低。GPT-4 级别的模型每百万 token 输出要几十美元。这也是为什么 DeepSeek 的低成本方案引起了巨大关注。

7.4 安全与对齐

如何确保模型不输出有害内容、不被恶意利用，是一个持续的挑战。对齐技术（RLHF、Constitutional AI）在进步，但还远未解决。

7.5 数据隐私

使用云端大模型意味着你的数据会发送到第三方服务器。对于敏感数据，需要考虑本地部署（如 LLaMA、Qwen 的开源模型）或使用有数据保护承诺的 API。

八、系统学习路径

如果你想系统学习大模型，这是我推荐的路径：

阶段一：入门（1-2 周）

目标	资源
理解 Transformer	3Blue1Brown 的 "But what is a GPT?" 视频系列
直觉理解 Attention	Jay Alammar 的 "The Illustrated Transformer"
跑通 API 调用	OpenAI / Anthropic 官方文档，写一个简单的聊天机器人
了解 Prompt 技巧	Anthropic 的 Prompt Engineering 指南

这个阶段的目标是建立直觉，不要纠结数学细节。

阶段二：进阶（1-2 月）

目标	资源
深入 Prompt Engineering	学习 CoT、Few-shot、ReAct 模式
实践 RAG	用 LangChain / LlamaIndex 搭建一个 RAG 应用
尝试 Fine-tuning	用 LoRA 微调一个开源模型（如 LLaMA 3 8B）
理解 Agent	读 AutoGPT / CrewAI 源码，理解 Agent 循环

这个阶段重点是动手。不要只看教程，要写代码、跑实验。

阶段三：深入（持续）

目标	资源
读核心论文	Attention Is All You Need、GPT-3、InstructGPT、Constitutional AI
训练小模型	Andrej Karpathy 的 nanoGPT / minbpe
Agent 开发	用 Claude Code / OpenAI Agents SDK 构建实际工具
跟踪前沿	关注 arXiv、Twitter/X 上的 AI 研究者

这个阶段没有终点。大模型领域每周都有新进展，保持好奇心和动手习惯比什么都重要。

九、总结

从 1950 年代的规则系统到今天的 GPT-4、Claude 4，NLP 走过了 70 多年。但真正的质变发生在 2017 年 Transformer 出现之后——短短几年，大模型从学术实验变成了改变每个人工作方式的工具。

理解这段历史不是为了考试，而是为了在这个快速变化的领域里有一个稳定的坐标系。当你知道 Attention 为什么重要、RLHF 在做什么、RAG 解决什么问题，你就能更好地判断哪些新技术值得关注，哪些只是噪音。

剩下的，就是动手了。选一个方向，写第一行代码，跑第一个实验。大模型的世界很大，但入口就在你的终端里。