推荐理由
技术持续进步不会等待任何人,当下如日中天的Transformer模型架构亦不例外。今天或许正是投入新一代模型架构研究最理想时机。正因为有不断涌现的技术挑战者,人工智能 领域才能得于持续发展。我尝试用5000字把Post-Transformer的技术路径梳理清楚。
正文
挑战者们:后Transformer 时代大模型技术概览
自 2021 年以来,业界围绕突破 Transformer 在长序列处理与计算效率上的瓶颈进行了大量探索,这些工作常被称为“Post-Transformer”技术。Transformer 依靠自注意力机制取得了成功,但其计算复杂度随序列长度二次增长,长序列任务和大模型推理都面临内存与算力限制。为此,AI研究社区提出了多种新架构与优化策略,包括线性状态空间模型、高效注意力近似、MLP/卷积/递归混合架构、稀疏注意力与递归因果建模等。
1. 线性状态空间模型(SSM)及其变体
核心思想 :借鉴控制论中的连续动态系统模型,将序列映射为通过线性微分方程演化的隐状态向量,并结合非线性控制项生成输出。与 Transformer 全局注意力不同,SSM 维护固定维度的隐状态来压缩记忆,理论上具备无限长依赖建模能力,且时间复杂度线性。
早期 HiPPO 工作用正交多项式投影优化隐状态更新,提升长程记忆。NeurIPS 2021 提出的 S4 模型通过对角+低秩隐状态矩阵参数化及频域卷积实现高效计算,在长序列任务(如信号建模、长序列分类)表现突出。DSS 等变体表明,仅用对角矩阵也可逼近 S4 性能,结构更简单。
Mamba 模型(Selective SSM) 由 Tri Dao 与 Albert Gu 于 2023 年提出,引入输入依赖参数,使状态更新矩阵随输入变化,从而有选择地记忆或遗忘信息,类似门控机制;并以硬件友好的并行扫描算法替代频域卷积,保持线性复杂度。实验显示,Mamba-3B 在语言建模上优于同参数规模 Transformer,接近两倍参数的 Transformer 性能;在百万级序列长度下推理吞吐量高出约 5 倍。
性能与应用 :Mamba证明无注意力架构可以媲美Transformer。3亿参数的Mamba在语言建模上超过同规模的Transformer,并接近参数量大两倍的Transformer表现。在处理百万级长序列任务时,Mamba持续提升,而Transformer无法胜任。
局限 :SSM 实现与训练涉及复杂数学与数值稳定性问题,需要定制 CUDA 内核、特殊初始化(如 HiPPO 矩阵)等,否则可能出现梯度爆炸或收敛困难。在离散逻辑推理等场景,是否可完全替代注意力机制仍待验证。
下图展示了Mamba发展史(同时也纪念了另外一个Black Mamba),可以看到近年来各大公司在SSM模型上的投入,几乎以SSM+Transformer的架构为主。这图其实并不完整,例如刚刚发布的Falcon-H模型就没有录入。
mamba.jpg
2. 高效注意力替代机制(线性/近似注意力)
核心思想 :降低 Transformer 注意力的 O(n²) 计算成本,通过核方法、低秩或稀疏近似实现线性或次线性复杂度。
核方法线性注意力 :如 Linear Transformer (2020) 和 Performer (2021),将 Softmax 注意力重写为核函数形式,用核分解或随机特征映射实现线性计算。例如 Performer(Choromanski等,2021):提出FAVOR+(Fast Attention Via Orthogonal Random Features)方法,用随机特征映射近似Softmax内积,将注意力转化为随机核的线性点积计算。Performer证明在选取足够特征数时,可无偏近似标准注意力,并以高概率保持小误差。这使其在理论上能够线性规模逼近全局注意力,处理长序列时内存和算量显著降低。
低秩/稀疏近似 :如 Linformer 假设注意力矩阵在长度维低秩,对 K、V 投影到较小维度,将复杂度降至 O(Nk);Reformer 用局部敏感哈希 (LSH) 将相似的 Q、K 聚类,只计算桶内注意力,将复杂度降至 O(N log N)。
这些方法在长序列任务中显著降低内存与计算需求。例如 Performer 可处理 8k 以上长度序列;Linformer 在保持精度的同时减少显存占用。但在复杂语言任务中,早期线性注意力的性能略逊于标准注意力,后续研究通过引入局部偏置、唯一查询嵌入等改进,缩小差距。
性能与应用 :高效注意力方法在牺牲少量精度的同时,大幅提升效率。例如,Performer模型在蛋白质长序列建模上比全注意力提升5个百分点准确率,并支持8192长度序列处理,而标准Transformer受限于内存。ImageNet64任务中,Performer、Linformer和Reformer等用更少层数获得相似结果,验证了线性注意力的有效性。Linear Transformer在CIFAR-10自回归生成中训练速度为普通Transformer的3倍,图像生成速度提升四千倍且质量接近,证明线性注意力在部分任务已具实用价值。
尽管高效注意力机制(如Linear Transformer)在语言任务上早期表现不理想,难以捕捉长距离依赖,但近期研究通过引入独特嵌入和局部窗口优化,使线性注意力性能提升,在视觉任务上甚至超过Softmax注意力。新方法如LoLA能将预训练Transformer近似线性化,提高效率且缩小精度差距。目前,高效注意力已在xFormers等库中实现,但大规模语言模型仍采用传统全局注意力,以保证精度和兼容性,因此这些机制多用于特定场景或作为插件。
3. MLP / 卷积 / RNN 混合架构
核心思想:摒弃显式注意力,改用 MLP 或卷积等算子,通过结构设计实现跨位置信息交互。
纯 MLP 架构:如 gMLP (2021) 采用门控机制让位置间信息交互,与 Transformer 在图像分类、语言建模中表现相当。
卷积混合架构:如 ConvMixer (2022) 以分块+深度可分离卷积混合空间/通道特征,在 ImageNet 上可与 ViT 竞争。
RNN 复兴:RWKV (2023) 融合 Transformer 与 RNN 优点,训练可并行化,推理按时间递归,恒定显存,已扩展到 140 亿参数。
这些方法在特定任务上表现接近于Transformer,并具有较高的效率,但应用范围有限。在数据充足且任务模式单一(如图像分类)情况下,纯MLP或卷积模型效果较好;但在涉及复杂逻辑推理或跨模态对齐时,缺乏注意力机制可能使模型学习难度增加,需要结合其他结构支持,例如,gMLP在部分NLP任务上需通过增大模型或融合卷积以提升局部性以缩小与Transformer的差距。卷积模型在长距离依赖方面受到限制,需采用较大卷积核或增加层数,在处理极长文本时不如显式长程机制高效。
RWKV等RNN理论上可处理无长度限制的序列,但训练长上下文时可能出现梯度传播困难,目前已部分通过并行化得到缓解。此外,新架构在生态支持(如预训练权重、优化器调优等)方面尚不成熟,实际应用仍需要进一步探索。总体来看,这些架构说明注意力机制不是唯一选择,为模型设计带来多样性。Transformer因多年应用验证而成为默认方案,而新架构更适用于特定场景,并为未来的混合架构设计提供思路。
4. 稀疏注意力与因果建模技术(RetNet、长程递归等)
核心思想 :减小注意力连接密度或改用递归方式处理序列,以进一步提升长序列建模的效率,特别是在自回归因果生成场景(如语言模型)中取得突破。代表性进展包括:
稀疏局部注意力 :此方法将每个token只关注部分区域。比如Longformer采用窗口机制,只在相邻窗口计算注意力,并用少量全局token捕捉段落间信息,从而计算复杂度降为线性。BigBird结合滑动窗口、随机连接和全局token,在理论上证明能有效近似全局注意力,并在长文本任务中效果接近传统Transformer,支持生成和摘要等应用。结构化稀疏注意力模型减少计算需求同时保持高准确率,在大规模文本理解领域应用广泛(如 Huggingface Transformers)。不过,这些稀疏模式多为预设计,难动态调整依赖,灵活性有限。但由于多数长文本语义集中在局部,稀疏注意力在实际场景下表现突出。
可扩展上下文的层次化注意力 :除了静态稀疏,一些工作尝试分层组织序列,实现分段全局建模。例如 Transformer-XL 提供了跨序列片段的记忆机制,通过将前段hidden作为“记忆”供当前段注意,从而突破固定窗口长度(OpenAI的GPT-4 32k上下文就利用了类似的分段缓存思想)。LongNet(Ding等,2023)则提出扩张注意力:用指数间隔采样的方法让注意力在低层局部、在高层跨越更远距离,以金字塔方式实现对十亿级长度的理论支持。LongNet通过在不同层使用不同膨胀因子,使高层注意力看见指数增长的跨度,从而在不增加每层复杂度的情况下极大延伸了全局接触范围。虽然十亿长度只是理论推断,其证明了Transformer上下文长度的可扩展性远未达到上限。类似地,DeepMind提出的Sandwich Transformer、H3等也探索将局部注意力和全局机制结合 ,在模型结构上分层分块处理序列,以均衡效率和依赖捕获。
RetNet是一种完全循环因果结构的模型 ,由微软亚洲研究院于2023年提出,被认为有望取代Transformer。其核心是保留机制:每层通过指数衰减状态向量,只保留近期关键信息,有效控制上下文长度和计算资源。RetNet支持并行化训练和高效推理,能在长文本生成任务中保持高吞吐量和低延迟。实验显示,它性能接近Transformer,并具备良好扩展性,目前代码已开源,便于多GPU环境下训练超长序列模型。
结构化状态空间模型用于因果建模 :前述SSM主要用于编码或双向任务,但也可用于因果生成。研究者将SSM的递归形式用于自回归生成时,每步只需更新常规模型大小的隐状态,而不需要缓存整个序列的K/V矩阵。这带来了无限上下文窗口和恒定存储占用的优势。2023年的Mega模型将S4简化为实数域的指数滑动平均(EMA)形式,并结合近似注意力用于语言建模,证明实数SSM也能用于生成任务。最新的Mamba本身就是在自回归(GPT式)场景下验证的,取得了优异结果。因此,SSM+因果解码成为Transformer以外实现长程生成的一条重要路线。它相比RNN的一大优点是并行计算充分,适合硬件提速;缺点则在于需要复杂的机制(如Mamba的选择性扫描)支持训练,门槛较高。
性能与局限 :稀疏注意力和递归模型在长文本任务中比Transformer更高效,但验证性能和兼容性仍有挑战。稀疏注意力需要为不同任务设计模式,精度可能略降但对长文本理解影响有限。递归模型(如RetNet、RWKV)不直接计算任意token之间的注意力分数,建模复杂交互需更深层次或更长状态,目前尚在研究。此外,新架构缺乏丰富工具,需重新预训练大模型以评估,成本较高。例如,RetNet还未公布千亿参数模型,难与Transformer直接对比。但在超长上下文(如长对话、书籍摘要)或实时流式任务(如语音、视频理解)中,稀疏/递归方法正在受重视。谷歌DeepMind、微软LongMem、OpenAI GPT-4等均已采用相关技术,未来Transformer在长序列上的优势将逐步被挑战。
5 展望:后Transformer时代的发展趋势
Transformer架构凭借成熟的性能和生态,短期内仍将与新方案共存互补。未来的发展可能包括:
混合架构成主流:许多研究者设想将Transformer与SSM、RNN等融合,取长补短。例如谷歌研究尝试在下一代LLM中引入显式记忆模块或循环单元。
超长上下文与知识引入:随着模型应用需求扩大,处理十万甚至百万级长度上下文将成为现实需求。稀疏注意力、分块处理、检索增强(把长文拆成段落检索)等都会组合使用。后Transformer模型可能内置检索模块,通过软检索调用外部知识库,减少纯生成模型记忆一切的负担。
硬件友好设计:无论何种架构,充分利用硬件加速是关键趋势。FlashAttention展示了算法优化的潜力。未来架构设计会更多考虑内存访问局部性、并行算力利用等。例如,SSM和RNN在推理时顺序性强,如何批量并行推理是个挑战,目前H-Net等通过chunk并行部分解决。随着GPU/TPU硬件的发展,新架构也需协同演进,可能出现专门针对RNN/SSM优化的硬件指令或架构。
理论指导与可解释性:Transformer的成功在很大程度上是经验驱动的,新架构则常有明确的理论基础(如SSM源自控制论方程,RetNet源自注意力-递归等价推导)。这有助于我们更深入理解模型工作原理,并设计更可控、更可解释的模型。例如,可解析的状态空间动态、显式的记忆衰减机制,都让模型的行为更透明,便于诊断和改进。
后Transformer时代并非要彻底淘汰Transformer,而是结合新模块、新机制拓展模型边界 。展望未来,我们可能看到的是融合了注意力长处和递归记忆的新型架构逐步成熟,在超长文本处理、低资源部署等领域发挥关键作用。未来几年深度学习 基础模型将呈现更加多样化的面貌:Transformer不再一家独大,取而代之的是各种针对特定应用优化的模型体系共存的繁荣景象。
推荐学习书籍 《CDA一级教材 》适合CDA一级考生备考,也适合业务及数据分析 岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !