扩散模型 (Diffusion Models) 深度研究

S钱多多S

140

收藏 2025-11-24

第一部分：核心机制、架构演进与 DDPM 基础

1.1 扩散模型与 VAE：生成范式的根本差异

尽管扩散模型和变分自编码器（VAE）都属于生成模型，但二者在潜变量处理方式上存在本质区别：

维度	VAE (Variational Autoencoder)	Diffusion Models (DDPM)
核心逻辑	映射与压缩：将输入数据编码为低维潜在分布，并通过单步解码重建图像。	渐进式去噪：利用多步马尔可夫过程逐步去除噪声，实现从纯噪声到清晰图像的过渡。
潜空间结构	低维潜空间：隐变量 $ z $ 的维度显著低于原始数据 $ x $，强调信息压缩。	同维潜空间：每一步的潜变量 $ x_t $ 与原始图像 $ x_0 $ 维度一致，不进行降维。
瓶颈与特性	易出现“后验坍塌”问题，导致生成图像模糊；但采样速度快。	生成质量高，覆盖更多模态（Mode Coverage），但依赖大量迭代步骤，采样较慢。

[此处为图片1]

1.4 DDPM 数学流程详解

DDPM 的运作可分为两个阶段：前向扩散与反向去噪。

前向过程（Forward Diffusion） 是一个固定的、无需训练的过程：

$$ x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I}) $$ 随着步数 $ t $ 增加，原始图像信号 $ \sqrt{\bar{\alpha}_t} x_0 $ 逐渐衰减，而噪声项 $ \sqrt{1 - \bar{\alpha}_t} \epsilon $ 占比上升，最终将图像转化为标准正态噪声。

反向过程（Reverse Denoising） 是模型学习的核心目标：

$$ p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta) $$ 模型需训练神经网络 $ \epsilon_\theta(x_t, t) $ 来估计每一步添加的噪声。

损失函数设计 简洁直观：

$$ L_{simple} = || \epsilon - \epsilon_\theta(x_t, t) ||^2 $$ 即让网络观察带噪图像 $ x_t $，预测出所加入的噪声 $ \epsilon $。这一目标使得训练稳定且高效。 [此处为图片2]

1.2 网络架构演进：U-Net 与 Transformer 的竞争格局

扩散模型本身是一种算法框架，其性能高度依赖于用于噪声预测的主干网络。

A. U-Net：经典图像生成工匠

早期扩散模型如 DDPM 和 Stable Diffusion v1.5 主要采用 U-Net 架构。

Encoder-Decoder 结构：通过下采样提取高层语义特征，再经上采样恢复空间分辨率。
跳跃连接（Skip Connections）：这是 U-Net 的关键创新。它将编码器中浅层的空间细节（如边缘、纹理）直接传递至解码器对应层级，有效保留生成图像的精细结构。

局限性： CNN 固有的局部感受野限制了其对长距离语义关系的建模能力，在复杂场景或大尺度图像生成中表现受限。

B. Transformer（DiT）：迈向全局理解的新范式

以 Sora 和 Stable Diffusion 3 为代表的新一代模型转向 DiT（Diffusion Transformer）架构。

Patch 分割机制：将图像划分为固定大小的块（如 $16\times16$），将其视为序列输入。
完全脱离卷积：使用自注意力机制替代传统卷积操作。

优势体现：

更强的扩展性（Scaling Law）：随着参数量和数据规模增长，性能持续提升，突破 U-Net 的性能天花板。
全局上下文感知：能够捕捉跨区域的语义关联，特别适用于视频生成中的时空一致性控制。

[此处为图片3]

1.3 “Stable” 的真正含义：Latent Diffusion Model 解密

“Stable” 并非指系统稳定性，而是源于 Latent Diffusion Model (LDM) 技术路径，其核心是引入了“感知压缩”。

像素空间扩散的问题：

直接在高分辨率像素空间（如 $512 \times 512$）执行扩散过程会导致计算资源极大浪费——大量算力被用于处理人眼难以察觉的高频噪声。

LDM 的解决方案：

使用预训练的 VAE Encoder 将图像压缩至低维潜空间（如 $64 \times 64$）。
在该潜空间内进行完整的扩散训练过程，大幅降低计算负担（减少数十倍）。
生成完成后，通过 VAE Decoder 将潜变量还原为真实图像。

形象类比：传统像素级扩散如同用原子逐个搭建物体；而 Stable Diffusion 则是先绘制草图（在潜空间中生成结构），再由助手完成着色与放大（解码重建）。 [此处为图片4]

第二部分：理论基石 —— Score Matching 与 Flow Matching

2.1 Score Matching：从噪声中找回秩序的数学原理

扩散模型为何能从一片混乱中重建有意义的数据？其数学本质在于 **梯度流（Gradient Flow）** 的引导。

Score 函数定义：

Score 是数据分布对数密度的梯度，形式为： $$ \nabla_x \log p(x) $$ 它指示了在任意点 $ x $ 处，概率密度增长最快的方向。模型通过学习这个方向，逐步将噪声样本“推回”高密度区域，即真实数据流形。

为什么是这个表达式？——推导与直观解释

直觉理解：我们可以将数据的概率分布想象成一座山地地形。山顶代表高概率区域，即真实数据聚集的地方；而山谷则对应低密度区域，也就是噪声所在。我们的目标是设计一个“指南针”，无论起点在何处，它都能指引我们走向山顶，即恢复出真实的样本。

为何使用对数概率梯度？ 直接使用概率密度的梯度 $\nabla_x p(x)$ 会面临严重的数值问题：当 $p(x)$ 非常接近零时（例如在远离数据流形的区域），计算梯度会导致下溢或不稳定。引入对数变换后，定义得分函数为：

\[ s(x) = \nabla_x \log p(x) \]

这一操作具有多重优势：

将乘法关系转化为加法，提升数值稳定性；
保持单调性，不改变极值点的位置（极大值仍对应最高概率区域）；
通过分式形式 $\frac{\nabla p(x)}{p(x)}$，在低密度区自动放大梯度信号。

[此处为图片1]

梯度场的作用机制： 函数 $s(x)$ 实际上构建了一个向量场，在整个空间中为每个点提供方向指引。尤其值得注意的是，在 $p(x)$ 极小的区域（如纯噪声区），虽然 $\nabla p(x)$ 可能也很小，但由于除以了更小的 $p(x)$，整体梯度被显著增强。这种“信噪比放大”效应确保了即使从完全随机的噪声出发，模型也能接收到强烈的“回归数据流形”的引导信号。

2.2 Flow Matching：从随机路径到确定性流动

Flow Matching 是扩散模型的一种广义扩展，已被应用于 Flux、SD3 等先进生成系统中，实现了更高效率和更优性能。

传统扩散过程（SDE 视角）： 前向过程模拟布朗运动，类似于一个“醉汉走路”——总体趋势是从数据走向噪声，但路径高度随机且曲折。

Flow Matching（ODE 视角）： 取而代之的是构建一条确定性的演化路径。其核心思想是建立一个时间依赖的速度场 $v_t(x)$，描述每一点在时刻 $t$ 的移动方向与速率。

训练过程中，借助最优传输理论（Optimal Transport），强制构造一条从噪声 $x_1$ 到真实数据 $x_0$ 的最短路径——也称为“修正流”（Rectified Flow）。这条路径尽可能接近直线，极大简化了逆向生成过程。

因此，标准扩散可视为 Flow Matching 的特例，而后者允许更灵活的轨迹设计，从而实现更快采样和更强建模能力。

第三部分：生成过程中的采样机制

3.1 为什么要进行采样？

训练完成的神经网络 $\epsilon_\theta$ 或 $s_\theta$ 并非存储图像本身，而是学习到了一个“去噪器”或“方向指引器”。真正的图像生成需要通过采样过程，沿着该指引逐步从噪声中还原出结构清晰的数据样本。这就像拥有地图和指南针后，仍需一步步走出迷宫。

3.2 为何必须采用迭代式生成？

这是一个典型的病态反问题：若试图从纯噪声 $x_T$ 一步预测原始图像 $x_0$，由于解空间巨大且多模态，模型往往只能输出所有可能结果的模糊平均，导致图像缺乏细节。

解决方案是将整个逆过程分解为大量微小步骤。当步长 $\Delta t \to 0$ 时，每一步的变换可被近似为简单的线性操作，且局部服从高斯分布。这样的设定使得神经网络能够高效、精确地拟合每一步的变化规律。

3.3 Flow Matching 的采样方式（欧拉法求解 ODE）

不同于 DDPM 类方法依赖随机采样的逆扩散过程，Flow Matching 的生成过程本质上是在求解一个常微分方程（ODE）：

当前状态： $x_t$，表示当前所处的中间状态（通常起始于噪声）；
查询速度： 将 $x_t$ 和时间 $t$ 输入模型，得到速度向量 $v = \text{Model}(x_t, t)$；
更新状态： 使用欧拉法进行反向积分： \[ x_{t - \Delta t} = x_t - v \times \Delta t \]

逻辑上等价于：“新位置 = 原位置 - 速度 × 时间步长”。

关键优势： 由于训练阶段已强制路径为近似直线，速度场 $v$ 在大多数时间段内变化平缓甚至恒定。这意味着可以使用极大的步长 $\Delta t$ 进行采样，仅需几步即可生成高质量图像，大幅提高推理效率。

第四部分：物理视角下的统一框架

4.1 扩散模型究竟学到了什么？

数学层面来看，模型学习的是数据分布在高维空间中的得分场（Score Field），即梯度场 $\nabla \log p(x)$。这个向量场编码了如何从混乱状态逐步恢复秩序的方向信息。

本质而言，它掌握了一种熵减机制——将高熵的无序输入（噪声）逐步转变为低熵的有序输出（结构化图像）。

4.2 不同生成模型的物理类比

现代生成模型的设计深受物理学启发，不同范式对应不同的自然法则：

模型类型	对应的物理体系	核心思想
Diffusion Models	非平衡热力学 (Non-equilibrium Thermodynamics)	模拟墨水滴入水中扩散的过程（正向），再训练一个“麦克斯韦妖”来逆转熵增过程（反向），实现去噪。
VAE / EBM	统计力学 (Statistical Mechanics)	基于玻尔兹曼分布，系统倾向于处于能量最低的状态。训练即最小化自由能，寻找最稳定的构型。
Normalizing Flows	流体力学 (Fluid Dynamics)	通过一系列可逆变换，像操控水流或塑形黏土一样，将简单先验分布连续变换成复杂数据分布。
GAN	动力系统 (Dynamical Systems)	生成器与判别器之间的对抗类似于力的平衡过程，最终收敛至纳什均衡，而非单纯的能量最小化。

[此处为图片2]

4.3 统一视角：能量模型（Energy-Based Models）

上述各类模型背后共通的核心理念是“能量”概念。

设想每个状态 $x$ 都对应一个能量值 $E(x)$：真实图像位于能量洼地（低 $E(x)$，高 $p(x)$），而噪声则处于高原地带（高能量，低概率）。生成过程即是沿着能量梯度下降，寻找最低能量配置的过程。

无论是通过分数匹配、变分推断还是对抗训练，各种方法都在以不同方式逼近同一个目标：构建一个合理的能量函数，并学会在其上进行有效优化。

生成式 AI 的核心机制，本质上是在模拟一个能量地貌（Energy Landscape）的演化过程。我们所进行的，正是对这一复杂地形的拟合与探索。

扩散模型的工作原理类似于在高维空间中导航：它通过估算每一点的“坡度”，也就是梯度（Score/Gradient），逐步引导数据从高能量区域（如充满噪声的山顶）向低能量区域（清晰结构的山谷）移动。[此处为图片1]

这一过程背后蕴含着深刻的物理思想——数百年来，物理学一直在探讨宏观有序结构如何从微观层面的随机运动中产生。而如今，这恰恰为 AI 从纯噪声中构造出有意义图像的现象提供了根本性的解释。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝