全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
605 3
2025-11-05

推荐理由

来自华为的研究成果,通过将“token”而非“比特”定位为基本语义单元,为大型语言模型(LLMs)建立了语义信息论。该框架引入了新的信息论度量来分析LLM的训练和推理,并从一个通用的自回归模型理论推导出了Transformer架构。

正文

引言

大型语言模型 (LLM) 的快速发展主要得益于经验性实验和计算规模,而非理论理解。虽然 ChatGPT 等模型展现出卓越的能力,但其运作背后的基本原理在很大程度上仍然不透明。华为理论实验室的白铂(Bo Bai)的这项研究通过提出一个基础性转变来解决这一关键空白:为 LLM 建立一个以“token”而非经典“比特”为基本信息单位的语义信息理论。

图 1:LLM 处理流程的示意图,展示了从输入 token X₁:ₙ 经嵌入函数 f 到语义向量 S₁:ₙ,然后通过 LLM 的概率模型生成输出 token Uₜ,再由函数 φ 解码产生最终输出 Yₜ 的流程。

这项工作受到了克劳德·香农 (Claude Shannon) 1948 年开创性论文的启发,该论文区分了通信问题的三个层次:A 级(技术传输)、B 级(语义含义)和 C 级(有效性)。虽然香农的原始信息论主要解决了 A 级问题,但这项研究通过认识到 LLM 作用于具有语义意义的 token 而非语法中立的比特来解决 B 级问题。

理论框架和信息论度量

该论文建立了与结构无关的信息论度量,以表征 LLM 操作的不同阶段。这些度量提供了一个通用的视角来理解 LLM,无论其具体的架构实现如何。

预训练阶段

对于预训练阶段,研究引入了有向率失真函数 R_pre(D),它量化了生成具有给定语义失真的输出序列所需的最小信息率。失真使用 LLM 预测的 token 分布与人类标注的真实值之间的 Kullback-Leibler (KL) 散度来衡量:

一个关键的理论结果表明,当 LLM 完美模仿人类标注的分布 (D=0) 时,所需的最小有向信息为 R_pre(0) = I(S₁:ₙ → U_{n+1:T_h})。论文证明,预训练中交叉熵损失的最小化在收敛时等同于当失真为零时最小化这个有向率失真函数。

后训练阶段

对于使用人类反馈强化学习 (RLHF) 进行微调,研究定义了有向率-奖励函数 R_post(W):

这衡量了达到所需奖励水平(代表人类偏好)所需的最小信息传输。

推理阶段

在推理阶段,论文将语义信息流定义为 token 生成过程中的有向信息密度。一个重要的理论发现证明,这种信息流形成了一个马尔可夫次鞅,这意味着语义信息倾向于随时间积累:

这个特性引出了语义信息容量的概念,为提示工程提供了理论基础。

语义嵌入和最优向量化

该研究通过将“词元级语义向量空间”定义为单位球面(S_{N-1}, F, μ, ⟨·,·⟩)上的概率内积空间,从而将词元级语义表示形式化。这一数学框架证明了使用余弦相似度作为衡量语义差异的主要指标的合理性,并为降维技术提供了理论基础。

该论文将用于下一个词元预测的信息论上最优的语义编码器表述为使反向有向信息最大化的编码器:

这一理论结果为对比预测编码(CPC)等表示学习方法提供了依据,表明CPC最大化了该最优度量的一个上界。

自回归大型语言模型形式化与Transformer推导

一项主要贡献是基于时变向量自回归(TV-VAR)过程,对自回归大型语言模型(AR-LLMs)进行了形式化的数学定义:

其中 A_{t,1:t-1} 代表时变系数矩阵,u_t 表示词元嵌入。

论文随后严格地将Transformer架构推导为这一通用AR-LLM框架的一种特例。其关键见解在于,Transformer的注意力机制将TV-VAR系数矩阵分解为:

其中 A 是时不变的,π_{tj} 表示通过查询-键点积上的softmax计算出的注意力分数。这种分解揭示了注意力分数衡量了词元之间非对称的语义关联,为Transformer的有效性提供了理论依据。

性能分析与界限

该研究对Transformer进行了全面的性能分析:

证据下界(ELBO):论文使用变分推断,推导了训练和推理阶段的ELBO表达式,将优化目标与最大化数据对数似然联系起来。

泛化误差界:该研究应用拉德马赫复杂度(Rademacher complexity)和塔拉格朗不等式(Talagrand's inequality),建立了泛化误差的上界,强调了对数几率(logits)在推理准确性中的关键作用。

记忆容量:分析将Transformer的记忆容量与现代连续霍普菲尔德网络(continuous Hopfield networks)联系起来,后者具有指数级的记忆容量,这解释了大型语言模型记忆大量模式的能力。

意义与启示

这项工作标志着大型语言模型开发从经验性方法向有原则、理论驱动方法的根本性转变。通过将“词元”确立为基本的语义单元并开发相应的(信息论)度量,该研究为理解、评估和改进大型语言模型提供了工具。

主要启示包括:

  • 通过通用AR-LLM框架实现有原则的架构设计
  • 改进训练目标,可能减少幻觉
  • 基于语义信息容量的提示工程的理论基础
  • 增强对Transformer为何能有效捕捉语义关系的理解

该研究还澄清,当前的大型语言模型近似于“人类水平的格兰杰因果关系”,擅长统计预测,同时也强调了其在真实反事实推理方面的局限性。这种理论表征对于设定现实期望和指导未来研究方向至关重要。

通过弥合信息论、机器学习和自然语言处理之间的鸿沟,这项工作建立了一个数学框架,可能将大型语言模型的开发从经验艺术转变为有原则的科学,从而可能加速进展,同时提高效率和可解释性。

相关引用

  1. 通信的数学理论

这是信息论的奠基性论文。该主要论文明确地将其提出的“语义信息论”定位为香农工作的直接扩展,将基本单位从“比特”转变为“词元”,使其成为主要的灵感来源。 C. Shannon, “A mathematical theory of communication,” Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.

  1. 注意力就是你所需要的一切

本文介绍了Transformer架构,它是主论文中分析的核心模型。作者提出的理论框架用于推导和解释Transformer的性能,使得这项引用对于连接理论与实践至关重要。 A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in Proc. 31st NIPS ’17, Long Beach, CA, USA, 4-9 Dec. 2017.

  1. 因果关系、反馈和有向信息

此引用至关重要,因为它引入了“定向信息”的概念,这是作者用于开发大型语言模型新度量的核心数学工具。所提出的“定向率失真函数”和“语义信息流”都是Massey工作的直接应用。 J. Massey, “Causality, feedback and directed information,” in Proc. IEEE ISIT ’90, Waikiki, HI, USA, Nov. 1990.

  1. 因果关系检验:个人观点

格兰杰因果关系是论文所基于的三个基础理论之一,如摘要中所述。论文得出结论,大型语言模型的训练过程近似于人类水平的格兰杰因果关系,这为大型语言模型所学到的能力提供了一个关键的理论解释。 C. Granger, “Testing for causality: A personal viewpoint,” Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
9 小时前
大型语言模型 (LLM) 的快速发展主要得益于经验性实验和计算规模,而非理论理解。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

9 小时前
虽然 ChatGPT 等模型展现出卓越的能力,但其运作背后的基本原理在很大程度上仍然不透明。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

9 小时前
华为理论实验室的白铂(Bo Bai)的这项研究通过提出一个基础性转变来解决这一关键空白:为 LLM 建立一个以“token”而非经典“比特”为基本信息单位的语义信息理论。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群