全部版块 我的主页
论坛 数据科学与人工智能 人工智能 深度学习
90 0
2025-11-24

第一部分:核心机制、架构演进与 DDPM 基础

1.1 扩散模型与 VAE:生成范式的根本差异

尽管扩散模型和变分自编码器(VAE)都属于生成模型,但二者在潜变量处理方式上存在本质区别:
维度 VAE (Variational Autoencoder) Diffusion Models (DDPM)
核心逻辑 映射与压缩:将输入数据编码为低维潜在分布,并通过单步解码重建图像。 渐进式去噪:利用多步马尔可夫过程逐步去除噪声,实现从纯噪声到清晰图像的过渡。
潜空间结构 低维潜空间:隐变量 $ z $ 的维度显著低于原始数据 $ x $,强调信息压缩。 同维潜空间:每一步的潜变量 $ x_t $ 与原始图像 $ x_0 $ 维度一致,不进行降维。
瓶颈与特性 易出现“后验坍塌”问题,导致生成图像模糊;但采样速度快。 生成质量高,覆盖更多模态(Mode Coverage),但依赖大量迭代步骤,采样较慢。
[此处为图片1]

1.4 DDPM 数学流程详解

DDPM 的运作可分为两个阶段:前向扩散与反向去噪。

前向过程(Forward Diffusion) 是一个固定的、无需训练的过程:

$$ x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I}) $$ 随着步数 $ t $ 增加,原始图像信号 $ \sqrt{\bar{\alpha}_t} x_0 $ 逐渐衰减,而噪声项 $ \sqrt{1 - \bar{\alpha}_t} \epsilon $ 占比上升,最终将图像转化为标准正态噪声。

反向过程(Reverse Denoising) 是模型学习的核心目标:

$$ p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta) $$ 模型需训练神经网络 $ \epsilon_\theta(x_t, t) $ 来估计每一步添加的噪声。

损失函数设计 简洁直观:

$$ L_{simple} = || \epsilon - \epsilon_\theta(x_t, t) ||^2 $$ 即让网络观察带噪图像 $ x_t $,预测出所加入的噪声 $ \epsilon $。这一目标使得训练稳定且高效。 [此处为图片2]

1.2 网络架构演进:U-Net 与 Transformer 的竞争格局

扩散模型本身是一种算法框架,其性能高度依赖于用于噪声预测的主干网络。

A. U-Net:经典图像生成工匠

早期扩散模型如 DDPM 和 Stable Diffusion v1.5 主要采用 U-Net 架构。
  • Encoder-Decoder 结构:通过下采样提取高层语义特征,再经上采样恢复空间分辨率。
  • 跳跃连接(Skip Connections):这是 U-Net 的关键创新。它将编码器中浅层的空间细节(如边缘、纹理)直接传递至解码器对应层级,有效保留生成图像的精细结构。
局限性: CNN 固有的局部感受野限制了其对长距离语义关系的建模能力,在复杂场景或大尺度图像生成中表现受限。

B. Transformer(DiT):迈向全局理解的新范式

以 Sora 和 Stable Diffusion 3 为代表的新一代模型转向 DiT(Diffusion Transformer)架构。
  • Patch 分割机制:将图像划分为固定大小的块(如 $16\times16$),将其视为序列输入。
  • 完全脱离卷积:使用自注意力机制替代传统卷积操作。
优势体现
  1. 更强的扩展性(Scaling Law):随着参数量和数据规模增长,性能持续提升,突破 U-Net 的性能天花板。
  2. 全局上下文感知:能够捕捉跨区域的语义关联,特别适用于视频生成中的时空一致性控制。
[此处为图片3]

1.3 “Stable” 的真正含义:Latent Diffusion Model 解密

“Stable” 并非指系统稳定性,而是源于 Latent Diffusion Model (LDM) 技术路径,其核心是引入了“感知压缩”。

像素空间扩散的问题

直接在高分辨率像素空间(如 $512 \times 512$)执行扩散过程会导致计算资源极大浪费——大量算力被用于处理人眼难以察觉的高频噪声。

LDM 的解决方案

  1. 使用预训练的 VAE Encoder 将图像压缩至低维潜空间(如 $64 \times 64$)。
  2. 在该潜空间内进行完整的扩散训练过程,大幅降低计算负担(减少数十倍)。
  3. 生成完成后,通过 VAE Decoder 将潜变量还原为真实图像。
形象类比: 传统像素级扩散如同用原子逐个搭建物体;而 Stable Diffusion 则是先绘制草图(在潜空间中生成结构),再由助手完成着色与放大(解码重建)。 [此处为图片4]

第二部分:理论基石 —— Score Matching 与 Flow Matching

2.1 Score Matching:从噪声中找回秩序的数学原理

扩散模型为何能从一片混乱中重建有意义的数据?其数学本质在于 **梯度流(Gradient Flow)** 的引导。

Score 函数定义

Score 是数据分布对数密度的梯度,形式为: $$ \nabla_x \log p(x) $$ 它指示了在任意点 $ x $ 处,概率密度增长最快的方向。模型通过学习这个方向,逐步将噪声样本“推回”高密度区域,即真实数据流形。

为什么是这个表达式?——推导与直观解释

直觉理解:我们可以将数据的概率分布想象成一座山地地形。山顶代表高概率区域,即真实数据聚集的地方;而山谷则对应低密度区域,也就是噪声所在。我们的目标是设计一个“指南针”,无论起点在何处,它都能指引我们走向山顶,即恢复出真实的样本。

为何使用对数概率梯度? 直接使用概率密度的梯度 \(\nabla_x p(x)\) 会面临严重的数值问题:当 \(p(x)\) 非常接近零时(例如在远离数据流形的区域),计算梯度会导致下溢或不稳定。引入对数变换后,定义得分函数为:

\[ s(x) = \nabla_x \log p(x) \]

这一操作具有多重优势:

  • 将乘法关系转化为加法,提升数值稳定性;
  • 保持单调性,不改变极值点的位置(极大值仍对应最高概率区域);
  • 通过分式形式 \(\frac{\nabla p(x)}{p(x)}\),在低密度区自动放大梯度信号。

[此处为图片1]

梯度场的作用机制: 函数 \(s(x)\) 实际上构建了一个向量场,在整个空间中为每个点提供方向指引。尤其值得注意的是,在 \(p(x)\) 极小的区域(如纯噪声区),虽然 \(\nabla p(x)\) 可能也很小,但由于除以了更小的 \(p(x)\),整体梯度被显著增强。这种“信噪比放大”效应确保了即使从完全随机的噪声出发,模型也能接收到强烈的“回归数据流形”的引导信号。

2.2 Flow Matching:从随机路径到确定性流动

Flow Matching 是扩散模型的一种广义扩展,已被应用于 Flux、SD3 等先进生成系统中,实现了更高效率和更优性能。

传统扩散过程(SDE 视角): 前向过程模拟布朗运动,类似于一个“醉汉走路”——总体趋势是从数据走向噪声,但路径高度随机且曲折。

Flow Matching(ODE 视角): 取而代之的是构建一条确定性的演化路径。其核心思想是建立一个时间依赖的速度场 \(v_t(x)\),描述每一点在时刻 \(t\) 的移动方向与速率。

训练过程中,借助最优传输理论(Optimal Transport),强制构造一条从噪声 \(x_1\) 到真实数据 \(x_0\) 的最短路径——也称为“修正流”(Rectified Flow)。这条路径尽可能接近直线,极大简化了逆向生成过程。

因此,标准扩散可视为 Flow Matching 的特例,而后者允许更灵活的轨迹设计,从而实现更快采样和更强建模能力。

第三部分:生成过程中的采样机制

3.1 为什么要进行采样?

训练完成的神经网络 \(\epsilon_\theta\) 或 \(s_\theta\) 并非存储图像本身,而是学习到了一个“去噪器”或“方向指引器”。真正的图像生成需要通过采样过程,沿着该指引逐步从噪声中还原出结构清晰的数据样本。这就像拥有地图和指南针后,仍需一步步走出迷宫。

3.2 为何必须采用迭代式生成?

这是一个典型的病态反问题:若试图从纯噪声 \(x_T\) 一步预测原始图像 \(x_0\),由于解空间巨大且多模态,模型往往只能输出所有可能结果的模糊平均,导致图像缺乏细节。

解决方案是将整个逆过程分解为大量微小步骤。当步长 \(\Delta t \to 0\) 时,每一步的变换可被近似为简单的线性操作,且局部服从高斯分布。这样的设定使得神经网络能够高效、精确地拟合每一步的变化规律。

3.3 Flow Matching 的采样方式(欧拉法求解 ODE)

不同于 DDPM 类方法依赖随机采样的逆扩散过程,Flow Matching 的生成过程本质上是在求解一个常微分方程(ODE):

  1. 当前状态: \(x_t\),表示当前所处的中间状态(通常起始于噪声);
  2. 查询速度: 将 \(x_t\) 和时间 \(t\) 输入模型,得到速度向量 \(v = \text{Model}(x_t, t)\);
  3. 更新状态: 使用欧拉法进行反向积分: \[ x_{t - \Delta t} = x_t - v \times \Delta t \]

逻辑上等价于:“新位置 = 原位置 - 速度 × 时间步长”。

关键优势: 由于训练阶段已强制路径为近似直线,速度场 \(v\) 在大多数时间段内变化平缓甚至恒定。这意味着可以使用极大的步长 \(\Delta t\) 进行采样,仅需几步即可生成高质量图像,大幅提高推理效率。

第四部分:物理视角下的统一框架

4.1 扩散模型究竟学到了什么?

数学层面来看,模型学习的是数据分布在高维空间中的得分场(Score Field),即梯度场 \(\nabla \log p(x)\)。这个向量场编码了如何从混乱状态逐步恢复秩序的方向信息。

本质而言,它掌握了一种熵减机制——将高熵的无序输入(噪声)逐步转变为低熵的有序输出(结构化图像)。

4.2 不同生成模型的物理类比

现代生成模型的设计深受物理学启发,不同范式对应不同的自然法则:

模型类型 对应的物理体系 核心思想
Diffusion Models 非平衡热力学
(Non-equilibrium Thermodynamics)
模拟墨水滴入水中扩散的过程(正向),再训练一个“麦克斯韦妖”来逆转熵增过程(反向),实现去噪。
VAE / EBM 统计力学
(Statistical Mechanics)
基于玻尔兹曼分布,系统倾向于处于能量最低的状态。训练即最小化自由能,寻找最稳定的构型。
Normalizing Flows 流体力学
(Fluid Dynamics)
通过一系列可逆变换,像操控水流或塑形黏土一样,将简单先验分布连续变换成复杂数据分布。
GAN 动力系统
(Dynamical Systems)
生成器与判别器之间的对抗类似于力的平衡过程,最终收敛至纳什均衡,而非单纯的能量最小化。

[此处为图片2]

4.3 统一视角:能量模型(Energy-Based Models)

上述各类模型背后共通的核心理念是“能量”概念。

设想每个状态 \(x\) 都对应一个能量值 \(E(x)\):真实图像位于能量洼地(低 \(E(x)\),高 \(p(x)\)),而噪声则处于高原地带(高能量,低概率)。生成过程即是沿着能量梯度下降,寻找最低能量配置的过程。

无论是通过分数匹配、变分推断还是对抗训练,各种方法都在以不同方式逼近同一个目标:构建一个合理的能量函数,并学会在其上进行有效优化。

生成式 AI 的核心机制,本质上是在模拟一个能量地貌(Energy Landscape)的演化过程。我们所进行的,正是对这一复杂地形的拟合与探索。

扩散模型的工作原理类似于在高维空间中导航:它通过估算每一点的“坡度”,也就是梯度(Score/Gradient),逐步引导数据从高能量区域(如充满噪声的山顶)向低能量区域(清晰结构的山谷)移动。[此处为图片1]

这一过程背后蕴含着深刻的物理思想——数百年来,物理学一直在探讨宏观有序结构如何从微观层面的随机运动中产生。而如今,这恰恰为 AI 从纯噪声中构造出有意义图像的现象提供了根本性的解释。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群