2017 年,Google 扔出一篇论文,标题就叫《Attention Is All You Need》。当时没多少人意识到,这几个字会成为一个时代的开篇。八年后的今天,GPT-5、Claude 4、Gemini 3、DeepSeek-R1,所有你能叫出名字的大模型,背后全是 Transformer。这篇博客从一篇中文论文出发,带你看懂 Transformer 是什么,以及它怎么一步步演化成今天的大模型江湖。


一、它从哪里来:论文说了什么

1.1 背景——RNN 的困境

在 Transformer 出现之前,主流的序列模型都靠 RNN(循环神经网络)实现。RNN 的工作方式很像人读文章:逐字逐句顺着读,记住了前面的词才能理解后面的。

但 RNN 有个致命问题:没法并行。这导致两个后果:

  • 训练极慢:8 块 GPU 要跑整整 12 小时

  • 长文本记不住:读到第 1000 个词时,第 1 个词早就被"淹没"了

1.2 注意力机制:让所有词同时"对话"

Google 团队想了个办法:不再顺着读,而是让每个词同时看看其他所有词在说什么。

通俗理解:读"那只黑色的猫坐在垫子上"。当处理"坐"这个词时,注意力机制会同时问:"猫"很重要(动作发出者),"垫子"也很重要(动作承受者)——这两个词得分最高。

1.3 Transformer:彻底扔掉 RNN

整个架构分成两部分:

  • 编码器(Encoder):把输入句子"消化"成 512 维向量

  • 解码器(Decoder):一个词一个词生成输出句子

两者的核心都是多头自注意力——让模型同时关注不同层面的信息:语法结构、语义关联、上下文……就像 8 个不同视角的专家同时审阅一份文件。

1.4 论文的核心数据

任务

模型

结果

英德翻译

Transformer (big)

28.4 BLEU(超越所有已有模型)

英法翻译

Transformer (big)

41.8 BLEU(历史新高)

英语句法分析

Transformer (4层)

92.7 F1(超越大多数专用解析器)


二、它怎么变成了今天的大模型

2.1 规模这条线:越来越大,越来越涌现

年份

模型

参数

2017

Transformer 原文

512 维向量,6 层

2020

GPT-3

1750 亿,96 层

2026

GPT-5 Ultra

突破万亿参数

规模带来一个有趣的现象——涌现能力:模型大到一定程度,突然就能做很多小模型做不到的事情:推理、代码生成、多步规划。就像把足够多的工人组织起来,就能完成原来不可能的项目。

2.2 注意力这条线:从全连接到混合专家

为了解决全注意力的 O(n²) 计算成本,2020 年代出现了混合专家(MoE)架构:让不同"专家"专注不同任务——就像医院里有不同科室,医生各司其职。

2.3 2026 年大模型格局

模型

公司

核心亮点

优势场景

GPT-5.4 Ultra

OpenAI

万亿参数,分层推理架构

代码生成、AI Agent

Claude 4

Anthropic

神经符号架构,可解释性强

长文档分析、安全场景

Gemini 3

Google

原生百万上下文,多模态

超长文本、视频理解

DeepSeek-R1/V4

深度求索

开源可本地部署,成本低

企业私有化、中文场景


三、为什么 Transformer 能赢?

  • 并行计算:GPU 的完美搭档,所有词向量同时处理

  • 长距离依赖:任意两词对话只需一个操作,RNN 需要走一千步

  • 可解释性:注意力权重可直接可视化,能看到模型在"想"什么


四、三个核心概念快速入门

1. Query、Key、Value(查询、键、值)
想象图书馆:你想找"机器学习"相关的书(Query),书架标签是(Key),书的内容是(Value)。注意力 = 找出最匹配的标签和书。

2. 多头注意力
8 个注意力头 = 8 个专家同时工作。有的看语法,有的看语义,有的看情感——最后加权汇总。

3. 位置编码
Transformer 本身不感知词的位置。位置编码给每个词加一个"门牌号",让模型知道词的顺序(“我打你”≠“你打我”)。