天下一统：Show-O多模态理解和生成统一大模型技术详细翻译解读

在当今数字化时代，我们每天都在产生和消费大量的信息，这些信息不仅包括文字，还有图片、视频等多种形式。想象一下，如果我们有一个工具，它不仅能看懂这些内容，还能根据我们的要求创造出新的图片或文字，那将是多么神奇和有用的事情！这正是这篇文章所讲述的Show-O模型的核心所在。

本文提出了一个统一的多模态模型，即Show-o，它统一了多模态理解与生成。与完全自回归模型不同，Show-o统一了自回归和（离散）扩散建模，以适应各种不同和混合模态的输入输出。统一模型灵活地支持广泛的视觉-语言任务，包括视觉问题回答、文本到图像生成、文本引导的修复/扩展，以及混合模态生成。在各种基准测试中，它展示了与同等或更多参数的现有个体模型相当或更优越的性能，这些模型是为理解或生成量身定制的。这显著突出了其作为下一代基础模型的潜力。

我们翻译解读最新论文：统一多模态理解和生成的单一转换器，文末有论文链接。

作者：张长旺，图源：旺知识

1 引言

“单独我们能做的很少；团结起来我们能做的很多。” —— 海伦·凯勒

在过去的几年中，多模态智能的两个关键支柱：理解和生成（如图1(a)和(b)所示）取得了显著的进步。对于多模态理解，多模态大型语言模型（MLLMs）如LLaVA（刘等人，2024c）在视觉问题回答（VQA）等视觉-语言任务中展示了卓越的能力。对于视觉生成的另一个支柱，去噪扩散概率模型（DDPMs）（Sohl-Dickstein等人，2015；何等人，2020）彻底改变了传统的生成范式（Kingma & Welling，2013；Goodfellow等人，2014），在文本到图像/视频生成（Podell等人，2023；Esser等人，2024；何等人，2022；吴等人，2023a）中取得了前所未有的性能。

鉴于在各个领域的成就，探索连接它们的潜力是很自然的。最近的工作（吴等人，2023b；葛等人，2024；叶等人，2024a；唐等人，2024）尝试将这两个不同领域的专家模型组装成一个统一的系统，以处理多模态理解和生成。然而，现有的尝试主要将每个领域视为独立，并经常涉及分别负责理解和生成的个体模型（如图1(c)左侧所示）。例如，NExT-GPT（吴等人，2023b）使用基础语言模型进行多模态理解，但需要额外的预训练扩散模型来进行图像生成。尽管如此，像LLaVA这样的主流理解模型是变换器架构（Vaswani等人，2017b），而像Stable Diffusion 3（SD3）（Esser等人，2024）这样的每个领先生成模型只是另一个变换器。这激发了一个研究问题：一个单一的变换器能否同时处理多模态理解和生成？

最近，Chameleon（团队，2024）展示了这是可能的。具体来说，Chameleon通过相同的自回归建模方式实现了不同模态的早期融合，生成文本和图像令牌。虽然自回归建模文本令牌（Touvron等人，2023；刘等人，2024c）是合理的，但是否最好将图像（或像素）自回归建模则不太清楚。自回归预测图像的一个明显而重要的瓶颈是，由于其因果注意力，尤其是在处理更高分辨率的图像/视频时，需要大量的采样步骤。此外，（连续）扩散模型（Podell等人，2023；Esser等人，2024）在视觉生成方面比自回归模型展现出更优越的能力，并且是全注意力的。

这激发了我们的思考：这样一个单一的变换器是否涉及自回归和扩散建模？在这里，我们设想了一个新的范式，文本被表示为离散令牌，并且与大型语言模型（LLMs）一样自回归建模，连续的图像像素使用去噪扩散建模。然而，由于离散文本令牌和连续图像表示之间的显著差异，将这两种截然不同的技术整合到一个单一的网络中并非易事。另一个挑战在于，现有的最先进扩散模型通常依赖于两个不同的模型，即文本编码器来编码文本条件信息和去噪网络来预测噪声。

如图2所示，具体来说，Show-o是建立在预训练的大型语言模型（LLM）之上的，并继承了文本推理的自回归建模能力。受Gu等人（2022年）；Chang等人（2022年）的启发，我们采用了离散去噪扩散来对离散图像令牌进行建模，而不是连续表示。此外，Show-o本质上编码了文本条件信息，消除了额外的文本编码器的需求。为了适应多样化的输入数据和任务的变化，采用了文本分词器和图像分词器将它们编码成离散令牌，并提出了统一的提示策略，进一步将这些令牌处理成结构化序列作为输入。因此，给定一张图片和相关问题，Show-o会自回归地给出答案。当仅提供文本时，Show-o会以离散去噪扩散的风格生成图像。

定量地，Show-o展示了与同等或更多参数的个体模型相当甚至更好的性能，这些模型在多模态理解和生成基准测试中的表现与Show-o相当或更优。与自回归生成图像相比，Show-o需要大约20倍更少的采样步骤，显示出其加速的内在潜力。此外，如图2所示，Show-o自然支持各种下游应用，如基于文本的修复和扩展，无需任何微调。此外，我们已经展示了Show-o具有混合模态生成的潜力，例如用文本描述交替生成视频关键帧。这表明统一模型作为可行的长视频生成范式具有潜力。除此之外，我们还研究了不同类型的图像表示（离散或连续）对多模态理解性能的影响，为未来统一模型的设计提供了系统性的见解。

2 相关工作

2.1 多模态理解

在大型语言模型（LLMs）取得显著进展的推动下，多模态大型语言模型（MLLMs）的开发取得了进展，例如LLaVA（Liu等人，2024c）、MiniGPT-4（Zhu等人，2023a）和InstructBLIP（Dai等人，2023）。这些早期的MLLM尝试展示了显著的多模态理解能力。为了将LLM整合到多模态领域，这些研究探索了将来自预训练的模态特定编码器（如CLIP）的特征投影到LLM的输入空间，实现了基于变换器主干的多模态理解和推理。尽管MLLM的设计选择多种多样，例如视觉编码器、特征对齐适配器和数据集，但大多数模型的训练都遵循自回归生成范式，这已被证明是LLM文本生成的有效方法。尽管这些模型具有很强的多模态理解能力，但它们主要关注视觉感知，缺乏生成超出文本的多模态输出的能力。

2.2 视觉生成

自回归模型。变换器模型已经在自然语言处理中的自回归建模方面取得了巨大成功。受到这种进展的启发，以前的研究直接将相同的自回归建模应用于学习图像像素的依赖性，用于图像/视频生成。例如，VideoPoet也采用了仅解码器变换器架构，用于从多模态输入合成高质量视频。最近，LlamaGen展示了大型语言模型架构如Llama也可以自回归地建模图像令牌，从而在类条件图像生成中获得不错的性能。

扩散模型。近年来，基于扩散的方法在文本到图像/视频生成方面展示了卓越的能力。通常，去噪扩散过程在由VAE编码器编码的连续潜在空间中操作。在这个框架中，模型的任务是预测添加到连续潜在表示的高斯噪声。相比之下，D3PM、Mask-predict、ARDM和其他方法提出了不同的扩散建模方式，例如将离散的图像表示作为输入。

2.3 统一的视觉-语言基础模型

近年来，越来越多的研究集中在能够同时理解生成的统一多模态语言模型上。一些工作使用连续表示与文本令牌交错，用于自回归建模生成图像。SEED-X提出了一个统一且多功能的基础系统，能够处理多模态理解和生成任务。在这种方法中，CLIP ViT编码器的连续图像表示与文本令牌结合，并输入到大型语言模型（LLM）中，执行下一词预测和图像表示回归。Chameleon引入了一种基于令牌的混合模态模型家族，能够理解生成图像。这种方法将所有模态表示为离散令牌，并使用统一的基于变换器的架构，并以端到端的方式从头开始训练模型。与这项工作相比，我们也采用离散令牌来表示所有模态。不同之处在于，我们使用离散扩散过程而不是自回归建模进行视觉生成。

3 方法论

目标是开发一个统一的模型，该模型涉及自回归和扩散建模，以共同进行多模态理解和生成。开发这样一个统一的模型带来了非平凡的挑战，核心问题围绕着：i) 如何定义模型的输入/输出空间；ii) 如何统一来自不同模态的各种类型的输入数据；iii) 如何在单个变换器中涉及自回归和扩散建模；iv) 如何有效训练这样一个统一的模型。在这里，我们分别概述了我们的解决方案——Show-o，来解决上述挑战。

3.1 令牌化

鉴于提出的Show-o是建立在预训练的LLMs（Li等人，2023；Touvron等人，2023）之上的，很自然地在离散空间上执行统一学习。这样，我们保持了一个统一的词汇表，包括离散的文本和图像令牌，以便统一模型可以承担相同的学习目标，即预测离散令牌。

文本令牌化。Show-o基于预训练的LLM，我们使用相同的分词器对文本数据进行分词，无需任何修改。

图像令牌化。遵循MAGVIT-v2（Yu等人，2023），我们使用大约3500万图像数据训练了一个无查找量化器。该量化器维护了一个大小为8192的码本，并将256×256分辨率的图像编码为16×16离散令牌（见图4中的选项（a））。使用MAGVIT-v2的原因在于它易于微调，可以作为具有时间压缩能力的视频分词器，这是我们未来打算探索的一个潜在方面。

图4中的选项（b）和（c）提供了用于多模态理解的可选输入。另一种方法是分别使用不同的分词器进行理解和生成。受到现有研究（Liu等人，2024c；b）的启发，我们还从预训练的MAGVIT-v2和CLIP-ViT（Radford等人，2021）编码器提取连续的图像表示作为输入，以探索多模态理解能力的改进（见图4中的选项（b）和（c））。我们将在第4.5节中提供更多细节并讨论这次探索。在接下来的部分中，默认的Show-o使用离散图像令牌作为多模态理解和生成的输入（图4中的选项（a））。为了简单起见，我们只详细说明方法部分中的默认Show-o。

3.2 架构

Show-o继承了现有LLMs的架构，例如（Li等人，2023；Touvron等人，2023），除了在每个注意力层前添加了一个QK-Norm操作（Dehghani等人，2023；Wortsman等人，2023；团队，2024）。我们使用预训练的LLM的权重初始化Show-o，并通过整合8192个新的可学习嵌入来扩大嵌入层的大小，用于离散图像令牌。与需要额外文本编码器的最新扩散模型不同，Show-o本质上通过自身编码文本条件信息来进行文本到图像的生成。

统一提示。为了在多模态理解和生成上执行统一学习，我们设计了一种统一的提示策略来格式化各种类型的输入数据。给定一对图像-文本（x，y），首先通过图像和文本分词器分别将其分词为M个图像令牌u = {ui}Mi=0和N个文本令牌v = {vi}Ni=0。我们根据任务类型按照图3所示的格式将它们形成输入序列。具体来说，[MMU]和[T2I]是预定义的任务令牌，指示输入序列的学习任务。[SOT]和[EOT]作为特殊令牌，分别表示文本令牌的开始和结束。同样，[SOI]和[EOI]是预定义的特殊令牌，标记图像令牌的开始和结束。

通过采用这种提示设计，我们可以有效地对各种输入数据进行编码，用于多模态理解、文本到图像生成和混合模态生成，将其作为序列数据。这种设置使得统一学习能够在这些各种任务的序列中无缝运行。一旦训练完成，我们就可以相应地提示Show-o来处理包括视觉问题回答和文本到图像生成在内的各种视觉-语言任务（如图2所示）。

全注意力机制。与现有工作（Touvron等人，2023；团队，2024）仅对序列进行自回归建模不同，我们提出了一种全注意力机制，使Show-o能够以不同的方式对各种类型的信号进行建模。它是一种全面且具有因果和全注意力的综合注意力机制，根据输入序列的格式自适应地混合和变化。我们在图5中为不同的输入序列示例说明了全注意力。具体来说，Show-o在序列中通过因果注意力对文本令牌v进行建模。对于图像令牌u，Show-o通过全注意力处理它们，允许每个令牌与其他所有令牌全面交互。给定一个格式化的输入序列，很明显，在多模态理解（图5(a)）中，序列中的文本令牌可以关注所有之前的图像令牌，而在文本到图像生成（图5(b)）中，图像令牌能够与所有前面的文本令牌进行交互。全注意力保持了预训练LLM的文本推理知识，并通过减少采样步骤提高了图像生成的效率。此外，它自然支持各种下游应用，如修复和扩展，无需任何微调。当仅给出文本令牌时，它退化为因果注意力（图5(c)）。

训练目标。为了执行自回归和（离散）扩散建模，我们采用了两个学习目标：i) 下一个令牌预测（NTP）和ii) 掩蔽令牌预测（MTP）。给定一个包含M个图像令牌u = {u1, u2, …, uM}和N个文本令牌v = {v1, v2, …, vN}的序列，用于多模态理解，我们通过采用标准的语言建模目标来最大化文本令牌的可能性：

LNTP = ∑i log p(vi | v1, …, vi−1, u1, …, uM; Θ), (1)

其中p(·|·)表示由Show-o的权重Θ建模的条件概率，使用随机梯度下降来训练模型。注意，如果输入序列只涉及文本令牌，则没有关于图像令牌u = {u1, u2, …, uM}的条件项。

正如Murphy（2023）所证明的，生成掩蔽模型（Ghazvininejad等人，2019；Wang & Cho，2019；Chang等人，2022）对应于离散扩散过程。在这种情况下，我们引用MaskGIT（Chang等人，2022）的生成范式，将（离散）扩散建模无缝集成到Show-o中。因此，对于在输入序列中建模图像令牌u = {u1, u2, …, uM}，我们首先随机地将图像令牌替换为掩蔽令牌u*，以随机比例创建掩蔽序列u* = {u*, u2, …, u*, uM}。接下来，我们的目标是通过最大化以下可能性来从掩蔽令牌重建原始图像令牌，条件是未掩蔽的令牌和前面的文本令牌：

LMTP = ∑j log p(uj | u*, u2, …, u*, uM, v1, …, vN; Θ). (2)

具体来说，我们遵循Chang等人（2022；2023）使用的采样策略来掩蔽图像令牌，并通过输入序列中所有文本和未掩蔽的图像令牌的信息来重建它们。按照Ho & Salimans（2022）引入的无分类器引导，我们有一定概率将条件文本令牌随机替换为null文本“”。

给定一批输入序列的批量大小，整体训练损失是LMTP和LNTP的组合：

L = LMTP + αLNTP, (3)

其中α是超参数，用于加权损失项LNTP。

3.3 训练流程

鉴于图像令牌的嵌入是新初始化的，需要大规模预训练以对齐多模态理解和生成。此外，Show-o消除了用于文本到图像生成的文本编码器，这为在单个变换器内实现文本和图像内容之间的有效对齐带来了重大挑战。为此，我们采用三阶段方法逐步有效地训练Show-o：

i) 图像令牌嵌入和像素依赖性学习：我们使用RefinedWeb（Penedo等人，2023）数据集来训练Show-o，以保持预训练LLM的语言建模能力。同时，ImageNet-1K数据集（Deng等人，2009）和3500万个图像-文本对被采用来分别训练Show-o进行类条件图像生成和图像字幕。这里，我们直接利用ImageNet-1K的类名作为文本输入，学习类条件图像生成。这个阶段主要涉及新可学习嵌入的学习，用于离散图像令牌，像素依赖性用于图像生成，以及图像和文本之间的对齐用于图像字幕。

ii) 图像-文本对齐，用于多模态理解和生成：在预训练权重的基础上，我们继续进行3500万个图像-文本数据的文本到图像生成训练，而不是ImageNet-1K。这个阶段主要关注图像和文本对齐，用于图像字幕和文本到图像生成。

iii) 高质量数据微调：最后，我们通过整合过滤的高质量图像-文本对，进一步优化预训练的Show-o模型，用于文本到图像生成和指令数据，用于多模态理解和混合模态生成。

4 实验

4.1 实验设置

数据集。采用三种类型的数据来训练Show-o：i) 仅文本数据：我们使用公开可用的RefinedWeb数据集（Penedo等人，2023）来保持预训练LLM的文本推理能力。该数据集包含大约10亿个实例（相当于9680万个单独的网页），总计2.8TB的策划文本数据。ii) 带类名的图像数据：Show-o使用来自ImageNet-1K（Deng等人，2009）数据集的1280万张图像来学习像素依赖性。iii) 图像-文本数据：对于多模态理解和生成的预训练任务，我们从公开可用的数据集组装了大约3500万个图像-文本对，包括CC12M（Changpinyo等人，2021）、SA1B（Kirillov等人，2023）和LAION-aesthetics-12M*。注意，我们使用ShareGPT4V（Chen等人，2023）来重新字幕这些数据集。此外，LAION-aesthetics-12M和JourneyDB（Sun等人，2023a）作为高质量数据集用于最终微调。按照LLaVA-v1.5（Liu等人，2024b）的做法，我们整合了LLaVA-Pretrain-558K和LLaVA-v1.5-mix-665K用于指令调整。此外，GenHowTo数据集（Souček等人，2024）用于混合模态生成。

评估细节。按照LLaVA（Liu等人，2024b）的做法，我们在POPE、MME、Flickr30k、VQAv2、GQA和MMMU基准上评估了Show-o的多模态理解能力。此外，按照Stable Diffusion（Rombach等人，2022）的做法，我们在MSCOCO数据集上采用Fréchet Inception Distance（FID）来评估Show-o的潜在生成保真度。进一步，我们遵循SD3（Esser等人，2024）在GenEval（Ghosh等人，2023）基准上评估Show-o的文本到图像生成能力。在实验中，我们与以下模型进行了比较：i) 仅理解模型，包括LLaVA-v1.5（Liu等人，2024b）、InstructBLIP（Dai等人，2023）、Qwen-VL-Chat（Bai等人，2023）和mPLUG-Owl2（Ye等人，2024b）；ii) 仅生成模型，包括DALL·E（Ramesh等人，2021）、LDM（Rombach等人，2022）、DALL·E 2（Ramesh等人，2022a）、SDv1.5（Rombach等人，2022）、GigaGAN（Kang等人，2023）、PixArt（Chen等人，2024）、Imagen（Saharia等人，2022）、RAPHAEL（Xue等人，2024）、LlamaGen（Sun等人，2024）、SDXL（Podell等人，2023）和SD3（Esser等人，2024）；统一模型包括Gemini（Anil等人，2023）、NExT-GPT（Wu等人，2023b）、Emu（Sun等人，2023d）、SEED-X（Ge等人，2024）、CoDI（Tang等人，2024）、LWM（Liu等人，2024a）和Chameleon（团队，2024）。

实现细节。我们最初使用RefinedWeb、3500万个图像-文本对和ImageNet-1K进行联合训练，分别用于语言建模、图像字幕和类条件图像生成，训练了500K步。随后，我们用3500万个图像-文本对替换了类条件生成的训练，额外训练了1000K步。基础模型在48个A100（80GB）GPU上训练，总批量大小为1,152。我们采用了AdamW优化器，权重衰减为0.01，预热5000步，初始学习率为1e-4，采用余弦调度。最后，我们使用过滤的高质量图像-文本对对Show-o进行微调，并遵循LLaVA-v1.5的配置进行指令数据调整。按照Chang等人（2023）的工作，在推理中，我们计算了掩蔽令牌的有条件对数几率ℓc和无条件对数几率ℓu。每个掩蔽令牌的最终对数几率ℓ通过以下方程获得，引导比例为t：

ℓ = (1 + t)ℓc − tℓu. (4)

注意，当前版本的Show-o基于Phi-1.5（Li等人，2023）。在接下来的实验部分中，默认的Show-o使用离散图像令牌作为多模态理解和生成的输入。Show-o†和Show-o‡分别表示使用预训练的MAGVIT-v2和CLIP-ViT（对应图4中的选项（b）和（c））的连续图像表示，用于多模态理解，我们将在第4.5节中讨论这次探索。

4.2 多模态理解

4.2.1 定量评估

表1展示了Show-o在公共基准测试上的多模态理解能力，例如图像字幕和视觉问题回答任务。i) 当前版本的Show-o建立在Phi-1.5（Li等人，2023）之上，因此我们遵循LLaVA训练Show-o的理解部分作为我们的直接基线，即LLaVA-v1.5-Phi-1.5。提出的Show-o在所有评估指标上与基线LLaVA-v1.5-Phi-1.5表现出相当的性能，后者专门优化用于多模态理解。这证明了我们的框架在单个变换器中统一多模态理解和生成的巨大潜力。ii) 与仅理解模型相比，包括InstructBLIP（Dai等人，2023）、Qwen-VL-Chat（Bai等人，2023）和mPLUG-Owl2（Ye等人，2024b），我们的模型在POPE、MME、Flickr30k和VQAv2基准测试上以更小的模型大小也取得了竞争性能，并在GQA基准测试上表现更好。iii) 与具有更多参数的统一模型相比，如NExT-GPT-13B（Wu等人，2023b）和Chameleon34B（团队，2024），我们的模型在Flickr30k基准测试上也取得了不错的性能，并在VQAv2基准测试上表现更好。鉴于这些有希望的结果，我们设想Show-o作为统一理解和生成的下一代基础模型的潜力。这些结果还证明了将Show-o扩展到实现最先进性能的潜力。

4.2.2 定性结果

我们展示了Show-o的视觉问题回答能力，并在图6中与Chameleon和SEED-X进行了比较。显然，当呈现查询图像时，Show-o能够详细描述图像，并回答常见问题，甚至涉及图像内的不寻常方面。在图6顶部的示例中，Chameleon、SEED-X和Show-o都提供了关于图像主要内容的全面描述。然而，当被问及“你认为这幅图像不寻常吗”时，Chameleon未能正确识别不寻常的方面，而SEED-X的回应虽然识别出了不寻常，但缺乏精确性，称“因为客厅通常在陆地上找到”。相比之下，Show-o的回应“因为客厅通常在室内，旨在放松和娱乐”，更为准确。

4.3 视觉生成

4.3.1 定量评估

在MSCOCO 30K上的结果。我们在表2中展示了Show-o在MSCOCO 30K上的零样本FID。可以观察到，与训练有更大数量参数和训练图像的生成模型如GLIDE和DALL·E 2相比，Show-o以1.3B参数和3.5M训练数据取得了更好的FID，即9.24。尽管GigaGAN、Imagen和RAPHAEL的性能略优于Show-o，但它们的模型大小（3B vs. 1.3B）更大，训练数据也更多。与统一模型相比，Show-o也表现出改进。上述验证了Show-o，一个统一的变换器，能够获得与同等或更多参数和训练数据的个体模型（仅生成）相比具有竞争力甚至更好的生成性能。然而，值得注意的是，MSCOCO 30K上的FID可能不是对生成保真度的全面准确评估。原因在于现有的生成模型通常使用高质量和美学图像进行微调，这些图像与MSCOCO数据集的分布不一致。因此，这种不匹配导致了对生成保真度的不准确测量。

在GenEval上的结果。按照SD3（Esser等人，2024）的做法，我们在GenEval基准（Ghosh等人，2023）上评估了Show-o的文本到图像生成能力，跨越六个维度，包括“单个对象”、“两个对象”、“计数”、“颜色”、“位置”、“颜色属性”，并在表3中展示了定量比较。可以观察到，与类似大小的模型如LDM（1.4B）相比，Show-o在所有六个指标上都取得了显著更好的性能，总体提高了约0.15。此外，Show-o的性能也比模型大小大5倍的DALL·E 2更好。此外，只有1.3B参数的Show-o，与参数数量多两倍的模型如SDXL（2.6B）和SD3（2B）相比，也取得了相当的性能。这表明我们统一模型的生成能力与专门的生成模型相当，甚至更胜一筹。与统一模型如CoDI和SEED-X相比，Show-o也展示了显著的改进。

4.3.2 定性结果

定性比较。我们在图7顶部展示了与基于扩散的模型（例如SDv1.5、SDXL）、自回归基础模型（即LllamaGen）和统一模型（包括LWM和SEED-X）的定性比较。可以观察到，无论是给定短文本提示还是长文本提示，Show-o都能生成与文本提示中描述的内容一致的真实图像。与SDv1.5和LlamaGen相比，Show-o展示了更好的视觉质量和图像-文本对齐。例如，如图7第二列所示，SDv1.5和LlamaGen都不能充分理解文本提示，在生成的图像中遗漏了一些属性，如日落和蓝色圆顶。与SDXL相比，Show-o展示了相当的视觉质量和对齐，如“拉力赛赛车”和“与生动日落形成鲜明对比”。图7底部可以找到更多由Show-o生成的样本。可以观察到，Show-o能够生成多样化和有趣的视觉内容。

文本引导的修复和扩展。正如所提到的，Show-o自然支持基于文本的修复和扩展，无需任何微调。我们在图8中展示了示例。如图8顶部所示，给定输入图像和修复掩码，Show-o可以根据用户提供的文本提示，将原始的红色电车修复为带有流线型曲线和着色窗户的蓝色跑车。此外，Show-o能够根据给定的文本提示，水平或垂直扩展原始图像。进一步地，我们可以灵活地用新的对象或场景（如图8第二行所示的“红色野花”）扩展原始图像。可以观察到，无论是修复区域还是扩展区域的像素都与原始像素一致。这些案例显著展示了Show-o在这些下游应用中相对于自回归模型的内在优势。

4.4 混合模态生成视频关键帧和字幕

在这里，我们探索了Show-o基于GenHowTo数据集中的文本描述和视频关键帧的混合模态生成能力。给定一系列交错的文本描述和视频关键帧（如图3底部所示），Show-o被训练为预测所有前面的文本和关键帧令牌的条件的下一个文本令牌或关键帧令牌。因此，Show-o可以生成混合模态的文本描述和视频关键帧。检查单个帧时，这些令牌以扩散方式生成。当考虑对长序列的建模时，由于后续关键帧是基于所有前面的文本和图像信息生成的，这也可以被视为一种时间自回归建模。因此，连续生成一致的视频关键帧变得可行。用视频片段替换视频关键帧可能是实现长视频生成的可行策略，这是我们未来探索的方向。

我们在图9中展示了定性示例。如图9顶部所示，给定文本提示，Show-o可以生成一致的视频关键帧。此外，我们还尝试使用指令性示例来训练Show-o。例如，给定问题“你能指导我制作鳄梨和苹果汁吗”，Show-o展示了生成与问题相关的文本描述和视频关键帧的能力。显然，生成的关键帧在时间上是一致的。这次探索揭示了我们的模型扩展到长视频生成领域的潜力，其中模型可以连续规划下一个场景的文本提示，并迭代地生成视频，允许连续生成后续视频。

4.5 消融研究

如图4(a)所示，默认的Show-o采用预训练的MAGVIT-v2将输入图像令牌化为离散令牌，然后传递到嵌入层以获得嵌入作为多模态理解的输入。除此之外，我们系统地探索了Show-o输入的不同设计选择，以增强多模态理解。具体来说，如图4(b)和(c)所示，而不是离散图像令牌，我们分别从预训练的MAGVIT-v2和CLIP-ViT提取连续的图像表示，作为处理多模态理解时Show-o的输入。实验结果列在表4中。通过这次探索，我们揭示了以下经验和见解。

视觉编码器对多模态理解的影响。默认的Show-o使用MAGVIT-v2将图像编码为离散令牌，用于多模态理解和生成。受到文献（Liu等人，2024b）的启发，我们研究了视觉编码器最受欢迎的设计选择，即预训练的CLIP ViT（Radford等人，2021）对多模态理解的影响。我们首先比较了两种设置使用我们的Show-o模型。在表4中，Exp 2和Exp 4、Exp 3和Exp 5之间的比较清楚地表明，CLIP-ViT的连续表示在多模态理解上的性能明显优于MAGVIT-v2。这主要归因于：i) CLIP-ViT预训练的数据集（4亿）比我们的预训练MAGVIT-v2（3500万）大得多；ii) 与MAGVIT-v2中的图像重建学习目标相比，CLIP-ViT中的判别损失，即图像-文本匹配，使得提取的表示更容易适应多模态理解。

各种表示对多模态理解的影响。在典型的多模态理解模型如LLaVA中，图像表示提取和跨模态对齐通常发生在连续空间中。然而，图像分词器如MAGVIT-v2自然产生离散图像令牌。如表4所示，我们比较了两种类型的输入，即连续表示和离散令牌，在多模态理解场景中。在Exp 6和7中，我们使用预训练的MAGVIT-v2提取离散令牌，并训练一个嵌入层将令牌嵌入到LLM的连续嵌入空间中。在Exp 4和5中，我们修改MAGVIT-v2以输出连续表示而不进行量化。跨模态投影层遵循LLaVA的设置。Exp 5和Exp 7之间的比较揭示了离散令牌在大多数基准测试中的性能要差得多。我们将性能差距归因于流行的多模态理解数据集，例如LLaVA-Pretrain-558K，不足以将离散图像令牌对齐到语言空间，导致跨模态理解不满意。相比之下，连续表示已经位于一个结构良好的嵌入空间中，更容易对齐。

统一预训练对多模态理解的影响。我们的训练流程涉及两个阶段的统一预训练，以学习图像令牌嵌入和图像-文本对齐，用于多模态理解和生成（如第3.3节所述）。在这里，我们详细阐述了使用不同的视觉编码器和类型表示进行统一预训练的影响：

• CLIP-ViT与连续表示。Exp 2和Exp 3之间的比较表明，统一预训练对基于CLIP ViT的理解有轻微的负面影响，因为大多数基准测试的性能有边际下降。我们假设MAGVIT-v2基于令牌的预训练和基于CLIP ViT的调整在几乎正交的维度上发生，背部的兼容性得以保留，以维持两项任务的兼容性。

• MAGVIT-v2与连续表示。Exp 4和Exp 5之间的比较也注意到了统一预训练带来的性能提升，尽管预训练使用离散令牌，而这里的实验使用连续特征。这种比较进一步验证了我们的假设，即统一预训练通过预训练期间的多样化多模态交互增强了背部的多模态理解和推理能力。

• MAGVIT-v2与离散令牌。Exp 6和Exp 7之间的比较表明，统一预训练显著提高了多模态理解性能。这是直观的，因为预训练也采用MAGVIT-v2离散令牌作为图像表示。具体来说，我们将性能提升归因于统一预训练通过大规模数据学习更好的跨模态对齐，并增强了背部的多模态理解能力。

此外，我们提供了定性示例，以说明采样步骤和无分类器引导对文本到图像生成的影响。

采样步骤的影响。我们在图10左侧展示了使用不同采样步骤在256×256分辨率下生成的结果。仅用两个步骤，Show-o就可以生成与给定提示大致相关的图像。将采样步骤增加到8，允许合成与提示非常接近的图像。当采样步骤设置为16时，生成的图像变得更加详细和逼真。相比之下，自回归模型（团队，2024；孙等人，2024）在下采样率为16时，需要256个采样步骤来生成相同分辨率的图像，这比我们的方法多16倍。

无分类器引导的影响。图10右侧展示了使用不同无分类器引导比例t生成的图像的视觉变化。可以观察到，没有无分类器引导时，生成的图像缺乏细节和对象。随着无分类器引导比例t逐渐增加到1.25和1.75，颜色和内容变得更加多样化，并与给定的文本提示更加一致。

4.6 失败案例

我们在图11中提供了Show-o在多模态理解和生成中的失败案例。当前版本的Show-o在文本识别/生成和对象计数方面存在挑战。例如，Show-o努力识别图11(a)左侧的短语“closing down”，并且无法生成术语“mardefly”（如图11(b)左侧所示）。这种限制主要归因于针对这些场景的特定数据的不足，因为我们的模型依赖于来自公开可用数据集的有限图像-文本对，并使用自动生成的字幕。丰富这类数据有望解决Show-o中的这些失败模式，这是我们将在未来探索的一个方面。

5 结论

本文提出了一个统一的变换器，即Show-o，以统一多模态理解和生成。Show-o首次统一了自回归和（离散）扩散建模，可以以不同的方式处理不同模态。广泛的实验结果表明，Show-o在广泛的视觉-语言任务中的性能与个别专家模型相当甚至更好。这突出了其作为下一代基础模型的潜力。

作者：张长旺，图源：旺知识

参考资料

标题：SHOW-O: ONE SINGLE TRANSFORMER TO UNIFY MULTIMODAL UNDERSTANDING AND GENERATION

作者：Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

单位：Show Lab, National University of Singapore; ByteDance

标签：人工智能、多模态学习、变换器模型、自然语言处理、图像生成

概述：Show-O是一种创新的统一变换器模型，能够同时处理多模态理解和生成任务，展示了跨模态任务的优越性能。

链接：
https://www.arxiv.org/pdf/2408.12528

点击扫码分享至微信

天下一统：Show-O多模态理解和生成统一大模型技术详细翻译解读

相关文章

阿里巴巴等入股链企AI

【热点名词】生成式人工智能

江苏户传申请多模态学习自动化投诉内容分析与分类专利，快速准确地分类投诉内容