全部版块 我的主页
论坛 经管考试 九区 经管留学 外语学习
147 0
2025-11-25

近年来,扩散模型的快速发展显著提升了基于文本提示或单张参考图像生成高质量、时间连贯视频的能力。这一进展引发了学术界与工业界的广泛关注,推动了对可控视频合成技术的深入探索。随着需求从单一条件生成向更复杂的多模态控制演进,研究者开始关注如何通过多种参考主体实现对外观细节和身份特征的精细化操控。这种趋势催生了一类新兴任务——任意参考视频生成(any-reference video generation),旨在融合多样化的视觉输入与文本指令,生成个性化、高保真且语义一致的动态内容。

然而,当同时引入文本描述与多张参考图像作为生成条件时,模型面临的条件空间急剧扩大,尤其在处理人类、动物、服饰、配饰及环境等多种主体组合时,各元素之间容易产生复杂交互。这些交互带来了三大核心挑战:其一为身份不一致,即关键外观特征如面部结构或穿戴物品在帧间无法稳定保留;其二为主体纠缠,不同参考来源的身份信息被错误混合,导致角色混淆;其三则是拷贝-粘贴式伪影,表现为局部区域机械复制原始图像内容,破坏整体自然性与场景逻辑。

针对上述问题,字节跳动团队于2025年在Arxiv发布新工作MAGREF(Masked Guidance for Any-Reference Video Generation with Subject Disentanglement),提出一种统一而高效的解决方案。该方法支持在一次生成过程中灵活整合任意类型与数量的参考主体,并确保视觉一致性与文本指令的高度契合。如图1所示,MAGREF不仅能在多样化主体与复杂场景下输出高质量结果(见图9–13更多案例),还在用户研究中展现出优于现有模型的表现力与可控性。

MAGREF的核心创新在于引入了掩码引导机制主体解耦策略。其中,掩码引导采用区域感知的掩码设计,结合逐像素的通道级拼接操作,将多个参考主体的外观特征在通道维度上独立编码。这种方式无需修改预训练主干网络结构,即可有效保留各主体的独特视觉属性,同时维持原有模型的时间建模能力与生成稳定性。

为进一步缓解多主体间的语义混淆,作者提出了主体解耦机制。该机制通过从文本条件中提取每个主体的专属语义信息,并将其精准注入对应的视觉区域,从而实现语义与空间位置的对齐。这种双向绑定增强了模型对复杂组合的理解与表达能力,避免身份错位或特征泄漏。

此外,为应对训练数据不足及拷贝-粘贴伪影问题,研究团队构建了一个四阶段数据构建管线,用于生成多样化且结构合理的训练样本对。该流程系统化地模拟真实应用场景中的多参考输入配置,显著提升了模型泛化能力与鲁棒性。

在多个综合基准上的大量实验表明,MAGREF在定量指标与定性体验上均持续超越当前最先进的方法。无论是面对单一主体还是多主体协同控制,该框架都表现出更强的可控性、更高的生成质量以及更好的身份保持能力,为未来可扩展、高精度的视频生成系统提供了坚实基础。

3 方法

为应对现有任意参考视频生成中的关键挑战,我们提出 MAGREF(Masked Guidance for Any-Reference Video Generation with Subject Disentanglement),从三个核心方面进行系统性优化:

1. 掩码引导的多主体一致控制

为实现细粒度且稳定的多主体身份保持,我们引入一种基于像素级通道拼接的掩码引导机制。该方法在潜空间中以参考图像为条件,通过逐像素通道级融合注入外观信息,有效保留纹理、颜色等细节特征。同时,设计区域感知的掩码机制,构建支持每个主体独立空间分布的参考画布。这一结构使模型能够在不修改网络架构的前提下,统一处理各类主体——包括人物、动物、服饰、物体乃至环境元素,实现跨类别的精确条件控制。

2. 主体解耦以缓解跨主体混淆

在涉及多个参考主体的场景中,易出现语义混淆与身份错位现象。为此,我们提出主体解耦机制,将文本描述中提取的主体 token 所对应的语义值显式注入到其匹配的视觉区域内。该策略强化了不同主体之间的语义隔离,在无需额外身份编码模块的情况下,显著降低跨参考混淆风险,提升生成过程中各主体的身份一致性与独立性。

3. 四阶段数据管线抑制伪影并增强多样性

为解决训练样本中存在的“拷贝-粘贴”式伪影问题,我们构建了一套系统化的四阶段数据处理流程。该管线整合了通用内容过滤与描述生成、目标区域精细化处理、人脸特征对齐以及跨样本配对构造四大模块,确保生成训练对具备高度多样性与语义合理性。通过此方式,不仅有效抑制了低级复制行为,还提升了模型在复杂场景下的鲁棒性与泛化能力。

上述三大组件协同作用,共同支撑起一个可扩展、高可控性且保真度优异的任意参考视频生成框架,使得高度逼真的多主体动态内容合成成为现实。

总体贡献总结

  • 统一的掩码引导架构:结合区域感知掩码与像素级通道拼接,在最小化模型改动的基础上,实现细粒度外观线索保留,并支持任意类别主体的精准条件控制。
  • 主体解耦机制:通过将文本驱动的语义值定向注入对应视觉区域,实现在免训练设定下的清晰身份分离,避免跨参考干扰。
  • 系统化数据构建流程:提出四阶段训练样本生成管线,有效减少拷贝-粘贴伪影,提升数据多样性与模型鲁棒性。大量实验表明,MAGREF 在多主体一致性视频生成任务中表现卓越,超越现有方法,并在多个基准上达到领先性能水平。

2 相关工作

视频生成模型

近年来,视频生成技术的发展主要依托于变分自编码器(VAE)[22, 26, 43] 将原始视频映射至低维潜空间。在此基础上,研究者广泛采用扩散模型 [16, 42] 或自回归架构 [6, 37, 57] 进行大规模生成预训练。得益于 Transformer 模型 [32, 44] 的强大建模能力,此类方法持续推动生成质量与多样性的边界 [3, 4, 54]。这一进展极大地拓展了视觉内容创作的可能性,并催生了文生视频 [14, 24, 38, 46, 54, 56, 58] 和图生视频 [3, 5, 8, 13, 53, 55, 61, 62] 等方向的深入探索。

主体驱动的视觉生成

从单一或多个参考输入中生成身份一致的图像与视频,关键在于准确捕捉主体特异性特征。当前方法大致可分为两类:基于微调的方法和免训练方法。

前者如 [7, 50, 52, 66],通常利用 LoRA [18] 或 DreamBooth [39] 等高效微调策略将个体身份嵌入预训练模型。然而,这类方法需为每个新主体单独进行微调,限制了实际应用中的可扩展性。

相比之下,免训练方法在推理时无需参数更新,更具实用性。它们通常通过改进交叉注意力或自注意力机制来增强身份保持效果。代表性工作包括 StoryDiffusion [67],其采用一致性自注意力与语义运动预测;MS-Diffusion [48] 则引入约束重采样与多主体交叉注意力机制,以捕捉更精细的主体细节。

近期研究进一步探索多样化的主体驱动视频生成路径。部分工作聚焦于身份稳定性,例如 ConsisID [59] 利用频域分解策略维持人脸一致性;ConceptMaster [20] 与 VideoAlchemy [7] 则结合 CLIP [35] 与 QFormer [25] 实现视觉-文本嵌入融合,支持多概念定制化生成。

另一趋势是引入多模态大语言模型(MLLM),如 Qwen2-VL [47] 和 LLaVA [28],以加强提示语与参考内容间的语义交互。在 Wan2.1 [46] 的基础上,ConcatID [65]、VACE [21]、Phantom [29] 和 SkyReels-A2 [12] 等方法深入探索参考条件建模策略,或通过拼接图像潜变量与噪声潜变量,或将参考特征作为外部条件输入,用于引导扩散过程中的生成方向。

图 2 展示了多主体与多场景下的定性结果,前两列提供参考图像输入。MAGREF 支持丰富组合形式,涵盖人物与配饰、时尚单品等复杂搭配。即使面对背景杂乱或构图复杂的参考图,模型仍能准确识别目标主体,并严格遵循文本指令完成高质量视频生成。

我们的目标是基于一组参考图像及其对应的文本描述,生成在主体外观上保持一致性的视频。具体而言,该方法需适应任意数量和分布的主体对象,并确保跨帧的身份一致性。关于视频扩散模型的基础知识详见附录 A。本文重点介绍所提出的掩码引导与主体解耦机制,并详细阐述一个四阶段的数据整理流程,用于分解视频–文本数据并构建多样化的参考配对样本。

区域感知掩码机制 为了在不偏离图生视频(I2V)建模范式的基础上融合多个主体的信息,我们设计了一种区域感知的掩码机制。该机制通过空间拼接多个参考图像并生成对应的空间掩码,实现对多主体信息的精确建模。给定一组包含 N 张参考图像 {Ik}k=1N,我们将每张图像放置于空白画布的不同位置 {pk = (xk, yk)}k=1N,从而合成一张复合图像 Icomp。其像素值由下式定义:

Icomp(i, j) = ∑k=1N Ik(i yk, j xk) 1(i,j) ∈ Rk,(1)

其中 Rk 表示第 k 张图像在画布上的矩形区域,1(·) 为指示函数。由此得到的复合图像作为单一参考帧输入,使模型能够沿用现有的 I2V 架构进行视频生成。

同时,我们构建一个二值掩码 M(i, j) 来显式标记所有主体所在的空间区域:

M(i, j) = 1(i,j) ∈ k=1K Rk.(2)

该掩码为模型提供了每个主体的空间先验信息,有助于在生成过程中维持主体级别的外观一致性。为增强鲁棒性,训练时随机打乱各主体在画布中的位置,以减少潜在的空间布局偏差。

图 3 (a) MAGREF 框架概览。我们提出区域感知掩码机制,将多个参考图像编码为复合图像并与噪声潜变量拼接;结合主体解耦策略,使每个参考主体与其对应文本标签精准关联,避免不同主体间的特征混淆。(b) 相较于朴素掩码方法(直接在帧维度拼接参考图像),我们的方案将多张参考图合成为单张复合图像,经 VAE 编码后应用下采样二值掩码标注主体区域,从而更有效地保障首帧与生成结果的一致性。

3.1 基于掩码引导的视频生成

我们提出了 MAGREF 框架,旨在支持从多样化参考图像出发的连贯且灵活的任意参考视频生成(见图 3)。与传统单主体设定不同,任意参考场景要求模型在未知主体数量与空间分布的情况下,自动识别并对其各个主体进行对齐。为此,MAGREF 引入了区域感知的掩码机制,结合逐像素通道级拼接策略,将多张参考图像中的外观信息有效注入到生成过程中。

这种结构设计充分利用了预训练视频骨干网络在身份保持方面的能力,并将其成功拓展至复杂多变的任意参考设置中,显著提升了生成结果的稳定性与一致性。

逐像素通道级拼接 要实现身份一致且视觉连贯的视频生成,必须为每个主体提供精细的身份线索。现有方法通常选择在时间维度注入 VAE 表征 [21] 或在 token 层面拼接视觉 token [65]。然而,这类方法往往需要模型从零学习如何保持身份一致性,尤其当参考图像数量波动较大时,依赖大量跨域数据,导致泛化能力受限。

在 MAGREF 中,我们摒弃了传统的 token 维度拼接方式,也不完全依赖自注意力机制,转而提出一种基于区域感知掩码的逐像素通道级拼接方法。该机制能有效保留各主体的独特外观特征,强化身份一致性控制。

具体实现上,首先将复合图像 Icomp1×Cin×H×W 在时间维度上进行零填充,扩展为 compT×Cin×H×W,以匹配视频序列长度。随后通过 VAE 编码器 E(·) 提取其潜层特征图:

Fcomp = E(comp) ∈ T×C×H×W,(3)

我们将带噪声的视频潜变量 \( Z \in \mathbb{R}^{T \times C \times H \times W} \)、参考图像表示 \( F_{\text{comp}} = E(\tilde{I}_{\text{comp}}) \in \mathbb{R}^{T \times C \times H \times W} \) 以及特征掩码 \( M_{\text{region}} \in \mathbb{R}^{T \times C_m \times H \times W} \) 在通道维度上进行拼接,形成最终的输入张量 \( F_{\text{input}} \):

\[ F_{\text{input}} = \text{Concat}(Z, F_{\text{comp}}, M_{\text{region}}) \in \mathbb{R}^{T \times (2C + C_m) \times H \times W}, \tag{4} \]

其中 Concat 表示通道方向的拼接操作。该复合输入随后被送入后续处理模块,使模型能够在生成过程中保持身份一致性,并实现连贯的任意参考视频合成。

在公式(3)中,\( F_{\text{comp}} \) 表示通过 VAE 编码器 \( E(\cdot) \) 提取的参考图像特征,其维度为 \( T \times C \times H \times W \),其中 \( T, C, H, W \) 分别代表帧数、通道数、高度和宽度。同时,二值掩码 \( M \) 被下采样至与 \( F_{\text{comp}} \) 相同的空间分辨率,并沿通道维度复制扩展,得到 \( M_{\text{region}} \)。这一过程确保了参考图像特征在时间维度上与视频帧对齐,从而支持在整个序列中无缝融合参考信息。

原始视频帧同样经过相同的 VAE 编码器处理,并叠加高斯噪声,以获得含噪潜变量 \( Z \)。该潜变量与参考特征及掩码共同构成模型输入,为多主体生成提供结构化引导。

3.2 主体解耦机制

尽管区域掩码提供了每个主体的显式空间划分,有助于视觉上的分离,但在多主体场景中,仍难以确保各个主体与其对应文本描述之间的精确对齐。相比单主体任务,多主体生成要求更强的文本-图像语义耦合能力,否则容易出现身份混淆或语义纠缠现象。

为应对该挑战,我们提出主体解耦(Subject Disentanglement)策略,扩展了原有的区域感知机制,将每个参考主体显式地与其对应的文本语义进行绑定。

具体而言,首先解析输入文本条件,提取出与各参考主体相关的一组词标签 \( \{w_i\}_{i=1}^K \)。对于每个词语 \( w_i \),从交叉注意力层中提取其对应的数值嵌入向量 \( v_i \in \mathbb{R}^D \),组成集合 \( V = \{v_i\}_{i=1}^K \)。为了在视觉空间中定位这些语义概念,我们为每个主体构建专属的二值掩码 \( M_{\text{sub}} = \{M^k_{\text{sub}}\}_{k=1}^K \),用于引导语义嵌入注入到指定区域。

主体掩码 \( M^k_{\text{sub}} \) 定义如下:

\[ M^k_{\text{sub}}(i,j) = \mathbf{1}_{(i,j)\in R_k},\quad k=1,\ldots,K. \tag{5} \]

其中 \( R_k \) 表示第 \( k \) 个主体所在的像素区域。随后,这些主体特定的信息被逐层注入首帧的潜变量表示 \( z_0 \in \mathbb{R}^{1 \times C \times H \times W} \) 中,并按以下方式更新:

\[ z'_0 = z_0 + \alpha \sum_{i=1}^{K} \left( M^k_{\text{sub}} \odot v_i \right), \tag{6} \]

此操作实现了语义信息的空间化注入,增强了模型对多主体身份与文本提示之间对应关系的建模能力。

图 4:复合参考图像与文本标签间的余弦相似度可视化结果。MAGREF 方法在多主体复合图像中能更准确地将“男人(Man)”和“女人(Woman)”与各自对应的文本提示对齐;而移除主体解耦(SD)模块后,不同主体之间的语义关联变得模糊且相互干扰。

在扩散模型的初始阶段,通过引入定向注入操作,实现了指定图像区域与对应文本 token 之间的精确对齐。该操作可表示为:

sub k ? ⊙ vi ? ) , (6)

其中,⊙ 表示逐元素的 Hadamard 积,并借助广播机制实现张量形状的对齐。这种设计有效缓解了属性泄露问题,避免了在生成视频过程中不同主体间的信息干扰(见图 4)。

3.3 四阶段数据整理流程

为支持任意参考视频生成任务,我们构建了一套系统化的数据处理流程,用于训练视频的预处理、文本标签生成,以及人脸、物体和背景等参考实体的提取。如图 5 所示,整个流程分为四个递进阶段,逐步完成数据过滤、语义标注与参考样本构建,最终服务于模型训练。

阶段 1:视频片段筛选与字幕生成
首先利用场景切换检测技术对原始视频进行分段处理,剔除质量较差或运动幅度微弱的片段。保留下来的高质量片段通过 Qwen2.5-VL [1] 模型生成描述性字幕,重点捕捉其中的动态内容信息。

阶段 2:物体识别与分割
基于生成的字幕内容,识别关键物体,并采用 GroundingDINO [30] 实现定位,随后使用 SAM2 [36] 对目标区域进行精细分割,从而获得清晰的物体参考图像。

阶段 3:人脸检测与筛选
利用 InsightFace 进行人脸检测,对检测结果进行身份标记,并依据姿态角度和图像质量进行过滤与排序。最终选取固定数量的高质量人脸图像组成参考集。

阶段 4:参考图像增强
引入先进的图像生成模型,对人脸和物体的参考图像进行增强处理,增加在姿态、外观及上下文方面的多样性。同时,背景图像也经过增强以提升整体参考集合的丰富度。

经过上述四个阶段处理后,每个训练样本被形式化表示为:

Ri = {Vi, Ci, (IiFace, IiFace′), (Ii,1Obj, Ii,1Obj′), …, (Ii,kObj, Ii,kObj′), IiBg} , (7)

其中:

  • Vi 表示视频片段;
  • Ci 为对应的文本描述;
  • (IiFace, IiFace′) 代表原始与增强后的人脸参考对;
  • (Ii,jObj, Ii,jObj′) 表示第 j 个物体的原始与变体参考对;
  • IiBg 为背景参考图像。

更多关于该数据管线的技术细节详见附录 B。

图 5:用于收集高质量训练样本的系统化四阶段数据处理流程。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群