当前位置：首页 > article >正文

【图像生成之十八】Seedream 2.0

article 2025/3/25 2:37:43

论文：Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

链接：https://arxiv.org/pdf/2503.07703

类型：文生图（支持中英文）

交流：添加VX：lf2637649812

一、背景

Flux、SD3.5和Midjourney等流行模型仍在努力解决模型偏见、文本渲染能力有限以及对中国文化细微差别理解不足等问题。为了解决这些局限性，我们提出了Seedream 2.0，这是一个中英文双语图像生成基础模型，在多个维度上表现出色，能够熟练地管理中英文文本提示，支持双语图像生成和文本渲染。我们开发了一个强大的数据系统，促进知识整合，以及一个平衡图像描述准确性和丰富性的caption系统。

特别是，Seedream与自主开发的双语大型语言模型（LLM）集成为文本编码，使其能够直接从海量数据中学习本地知识。这使得它能够生成具有精确文化细微差别和美学表达的高保真图像，这些图像可以用中文或英文描述。此外，Glyph Alized ByT5应用于灵活的字符级文本渲染，而Scaled ROPE可以很好地推广到未经训练的分辨率。多阶段训练后优化，包括SFT和RLHF迭代，进一步提高了整体能力。通过广泛的实验，我们证明Seedream 2.0在多个方面实现了最先进的性能，包括提示跟随、美学、文本渲染和结构正确性。

现有方案不足之处

（1）模型偏见model bias：目前的模型表现出对特定方面的倾向，如Midjourney的美学，同时牺牲了其他方面的性能，如指令跟随或结构正确性。

（2）文本渲染能力不足Inadequate Text Rendering Capacity：在长内容或多种语言（尤其是中文）中进行精确文本渲染的能力相当有限，而文本渲染是一些重要场景的关键能力，例如包括平面设计和海报设计在内的设计场景。

（3）对中国特色认识不足Deficiency in Understanding Chinese Characteristics：对中国文化等当地文化的独特特征缺乏深入了解，这对当地设计师来说非常重要。

SeedDream2.0优势

（1）强大的模型能力Strong Model Capability：通过数据构建、模型预训练和后训练的多级优化，我们的模型在多个方面处于领先地位，包括提示跟踪、美学、文本渲染和结构正确性。

（2）出色的文本渲染能力Excellent Text Rendering Proficiency：使用为文本渲染任务量身定制的自定义字符级文本编码器，我们的模型在文本生成方面表现出色，特别是在生成具有复杂汉字的长文本内容方面表现出色。

（3）高度符合人类偏好Highly Align with Human Preferences：在各种训练后模块中多次迭代RLHF优化后，我们的模型始终将其输出与人类偏好保持一致，ELO评分的巨大优势证明了这一点。

二、数据

本节详细介绍了我们用于预训练的数据管道，包括各种预处理步骤，如数据组合、数据清理和过滤、主动学习、caption和文本渲染数据data for text rendering。这些过程确保了最终的高质量、大规模和多样化的预训练数据集。

2.1 Data Composition

如何维持数据分布：（1）减少代表性过高的来源的比例，同时保持其相对规模关系。（2）Clustering-based Sampling，基于多个层次上的聚类对数据进行采样，从代表更广泛语义的聚类（如视觉设计）到代表更精细语义的聚类，如CD/书籍封面和海报。（3）知识注入数据。该部分涉及使用开发的分类法和多模式检索引擎注入知识，如图4所示。它包括具有独特中国背景的数据，以提高模型在中国特定场景中的性能。

2.2 Data Cleaning Process

第一阶段：一般质量评估。（1）一般质量分数：评估图像清晰度、运动模糊和无意义内容；（2）一般结构评分：对水印、文本叠加、贴纸和徽标等元素的评估；（3）OCR检测：识别和编目图像中的文本。

第二阶段：详细的质量评估。这一阶段涉及专业美学评分、特征嵌入提取、重复数据删除和聚类。聚类在多个层次上构建，代表不同的语义类别。每个数据点都被分配了一个语义类别标签，以便后续调整分布。

第三阶段：Captioning and Re-captioning。我们对剩余的数据进行分层，并注释标题或重述。更高级别的数据通常会收到从不同角度描述的更丰富的新字幕。

我们开发了一个主动学习系统来改进我们的图像分类器，如图6所示。这是一个迭代过程，逐步完善我们的分类器，确保训练的高质量数据集。caption过程为每张图像提供有意义且上下文准确的描述，生成通用和专用字幕。

我们用中文和英文制定简短和长篇字幕，确保准确详细的描述：

Short Captions: Accurately describe the main content of an image, capturing the core knowledge and content.
Long Captions: More descriptive, detailing as many aspects of an image as possible, including appropriate inferences and imaginations.

2.3 Text Rendering Data

我们通过过滤内部数据并使用OCR工具选择具有丰富视觉文本内容的图像，构建了一个大规模的视觉文本渲染数据集，如图8所示。

三、Model Pre-Training

在本节中，我们将介绍Seedream 2.0模型的训练和推理阶段。主要模块如图9所示。

3.1 Diffusion Transformer

对于输入图像I，使用自主开发的变分自动编码器（VAE）对输入图像进行编码，得到潜在空间表示x∈RC×H×W。然后将潜在向量x拼接成多个H×W/p/p的块。此过程最终将输入图像转换为H×W/4图像标记，与文本编码器编码的文本标记连接，然后馈送到变换器块中。

DiT块的设计主要遵循SD3中MMDiT的设计原则[7]。每个转换器块只包含一个self-attention，该层同时处理图像和文本标记。考虑到图像和文本模态之间的差异，采用不同的MLP来分别处理它们。自适应层规范用于调节每个注意力和MLP层。我们采用QK范数来提高训练稳定性，并采用全分片数据并行（FSDP）[44]来进行分布式模型训练。

在本文中，我们在文本标记上添加了学习到的位置嵌入，并在图像标记上应用了2D旋转位置嵌入（RoPE）[29]。与之前的工作不同，我们开发了一种2D RoPE的变体，即Scaling RoPE。如图10所示，通过基于图像分辨率配置各种比例因子，位于图像中心的补丁可以在不同分辨率下共享相似的位置ID。这使得我们的模型在推理过程中能够在一定程度上推广到未经训练的纵横比和分辨率。

3.2 Text Encoder

为了对文本到图像生成模型进行有效的prompt编码，现有的方法（[7,13,15]）通常采用CLIP或T5作为扩散模型的文本编码器。CLIP文本编码器（[24]）能够捕获与视觉表示或嵌入很好对齐的判别信息，而T5编码器（[25]）具有很强的理解复杂和细粒度文本信息的能力。然而，CLIP和T5编码器都没有很强的理解中文文本的能力，而只有解码器的LLM通常具有出色的多语言能力。

T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作，它是一个文本到文本迁移的基于Transformer的NLP模型，通过将 所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中。

T5模型基于Transformer的编码器-解码器结构，具体特点包括：

‌编码器‌：将输入文本编码为固定大小的上下文向量，通过自注意力机制捕捉文本中的关键信息和上下文关系。
‌解码器‌：生成目标文本，使用Masked Attention确保生成第t个单词时只能使用前t-1个单词的信息。
‌任务前缀‌：通过在输入文本前添加任务前缀（如“translate English to French”），使模型能够识别并执行特定任务。

文本编码器在扩散模型中起着关键作用，特别是在图像生成中的文本对齐效果方面。因此，我们的目标是利用LLM的强大功能，开发一个比CLIP或T5更强的强文本编码器。然而，与CLIP或T5的文本编码器相比，仅由解码器LLM生成的文本嵌入在特征分布上存在很大差异，这使得很难与扩散模型中的图像表示很好地对齐。当使用这种基于LLM的文本编码器训练扩散模型时，这会导致显著的不稳定性。我们开发了一种新的方法，通过使用文本图像对数据来微调仅限解码器的LLM。为了进一步增强在某些具有挑战性的场景中生成图像的能力，例如涉及中文风格细微差别和专业词汇的场景，我们收集了大量包含在训练集中的此类数据。

3.3 Character-level Text Encoder

考虑到双语文本字形（尤其是汉字）的复杂性，我们应用ByT5[19,37]字形对齐模型对渲染文本的字形内容进行编码。该模型可以提供精确的字符级特征或嵌入，并确保渲染文本的字形特征与文本提示的字形特征的一致性，这些特征被连接起来，然后输入到DIT块中。

Rendering Content. 实验结果表明，当仅使用ByT5模型对渲染文本的特征进行编码时，特别是在长文本的情况下，可能会导致重复的字符和无序的布局生成。这是由于该模型对整体语义的理解不足。为了解决这个问题，对于渲染文本的字形特征，我们使用LLM（文本编码器）和ByT5模型对其进行编码。然后，我们使用MLP层将ByT5嵌入投影到与LLM文本编码器的特征对齐的空间中。然后，在拼接LLM和ByT5特征后，我们将完整的文本特征发送到DiT块进行训练。与通常使用LLM特征和OCR渲染图像特征作为条件的其他方法相比，我们的方法只使用文本特征作为条件。这使得我们的模型能够保持与原始文本到图像生成相同的训练和推理过程，显著降低了训练和推理管道的复杂性。

渲染功能Rendering Features。渲染文本的字体、颜色、大小、位置和其他特征使用通过LLM文本编码器编码的re-caption模型进行描述。传统的文本渲染方法[4,18,32]通常依赖于预设文本框的布局作为扩散模型的条件输入。例如，TextDiffuser-2[4]采用额外的LLM进行布局规划和编码。相比之下，我们的方法通过re-caption模型直接描述文本的渲染特征，允许端到端的训练。

四、Model Post-Training

我们的训练后过程由多个连续阶段组成：1）继续训练（CT）和监督微调（SFT）阶段显著增强了模型的美学吸引力；2）人类反馈对齐（RLHF）阶段通过自主开发的奖励模型和反馈学习算法，显著提高了模型在各个方面的整体性能；3） Prompt Engineering（PE）通过利用微调的LLM进一步提高了美学和多样性的表现；4）最后，开发了一个refiner模型，以提高从我们的基础模型生成的输出图像的分辨率，同时修复一些微小的结构误差。不同训练后阶段的可视化结果如图11所示。

4.3 Human Feedback Alignment (RLHF)

在我们的工作中，我们介绍了一种为扩散模型量身定制的开创性RLHF优化程序（[14,41,42]），该程序结合了偏好数据、奖励模型（RM）和反馈学习算法。如图12所示，RLHF阶段在提高我们的扩散模型在各个方面的整体性能方面起着关键作用，包括图像文本对齐、美学、结构正确性、文本渲染等。

4.3.2 Reward Model

模型架构：我们使用支持中文和英文的CLIP模型作为RM。通过利用CLIP模型的强大对齐能力，我们放弃了ImageReward等额外的头部输出奖励方法，选择将CLIP模型输出作为奖励本身。排名损失主要用作我们RM的训练损失。

多方面奖励模型：为了提高模型的整体性能，我们精心设计和训练了三个不同的RM：图像文本对齐RM、美学RM和文本渲染RM。特别是，当提示标签与文本渲染相关时，文本渲染RM会被选择性地使用，从而显著提高了字符级文本生成的精度。

4.3.3 Feedback Learning

Learning Algorithm：我们通过直接优化从多个RM计算的输出分数来完善我们的扩散模型，类似于REFL（[36]）范式。深入研究各种反馈学习算法，如DPO（[33]）和DDPO（[1]），我们的研究表明，我们的方法是一种高效且有效的多奖励优化方法。特别是，我们通过仔细调整学习率、选择合适的去噪时间步长和实现权重指数移动平均来实现稳定的反馈学习训练。在反馈学习阶段，一个关键策略涉及DIT和集成LLM文本编码器的协调微调。这种联合训练协议显著增强了模型在图像文本对齐和美学改进方面的能力。

Iterative Refinement迭代优化：我们的实验涉及在扩散模型和训练好的RM之间进行的一系列迭代优化。i）我们首先利用现有的奖励模型来优化扩散模型。ii）接下来，我们对改进的扩散模型进行偏好标注，并训练一个感知不良情况的奖励模型。iii）然后，我们利用这个更新的奖励模型来进一步优化扩散模型。上述过程是迭代重复的，以提高性能。与动态更新RM相比，这种迭代方法不仅提高了RLHF过程中的性能上限，而且确保了更高的稳定性和控制程度。

4.4 Prompt Engineering (PE)

常见的用户文本提示通常简单整洁，很难直接生成质量令人满意的图像。这种局限性源于这样一个事实，即我们的扩散模型是用高质量的标题训练的，这些标题通常比人类书面文本提示复杂得多，但包含更详细的信息。这意味着我们需要重新校准用户提示，以匹配模型的偏好，从而实现最佳性能。为了解决这个问题，我们引入了一种新的Prompt Engineering（PE）框架，通过利用内部微调的LLM来促进扩散模型，以生成更高质量的图像。PE框架由两个关键阶段组成：监督微调LLM和RLHF。我们的实证研究结果表明，我们的PE模型使美学质量显著提高了30%，图像文本对齐提高了5%，生成图像的多样性大幅增加。

4.4.1 Fine-tune LLM

我们的特征工程建立在一个开发优秀的语言模型基础上，具有很强的中英文能力。我们通过使用精心策划的数据集对LLM进行监督微调，在那里我们构建成对提示的数据样本，D=<u，r>（u表示初始输入提示，r表示我们的PE模型重新表述的输出）。构建的提示对的质量对PE的性能很重要。我们设计了两种不同的方法：i）从用户输入开始：（u→r）：用户输入提示u被手动改写，然后输入到一个完善的T2I扩散模型中。重复执行此过程，直到生成高质量图像，其中相应的改写提示被选择为r。ii）从重新表述的提示（r→u）开始：我们从训练集中精心挑选出具有详细和全面说明的优秀图像样本。此外，我们从开源社区收集高质量的样本或图像文本对。然后，我们使用内部LLM对收集到的样本的标题进行降级，以获得初始用户提示u（例如，消除改写标题中与美学相关的描述）。

4.5 Refiner

我们的基础模型生成512分辨率的图像，需要进一步扩展到1024分辨率。我们结合了一个细化模型，以更高的分辨率缩放图像。细化器不仅提高了图像分辨率，还细化了结构细节（如人脸），丰富了纹理质量，如图14所示。细化模型建立在我们的基础模型上，训练过程包括两个阶段：1024分辨率训练和纹理RLHF，具体如下。1024分辨率训练。我们使用CT阶段使用的数据进行1024分辨率训练，其中我们排除了图像尺寸小于1024，同时通过保持高分辨率图像的宽高比将其大小调整为1024。Refiner RLHF。此外，我们在refiner上执行了类似的RLHF过程，以增强生成图像中的纹理细节。数据构造如下。我们手动收集了一组高纹理图像，在这些图像中进行随机退化以构建用于训练的配对数据。然后，我们使用这些退化的图像训练基于分数的纹理奖励模型（RM），并利用纹理RM来指导精炼模型的优化，以生成更丰富、更有意义的图像。

六、Model Acceleration

6.1 CFG and Step Distillation

在扩散模型推理阶段，通常采用无分类器引导（CFG）策略，每个时间步需要两个模型推理来生成图像。为了在保持guidance scale参数化的同时解决这种低效问题，我们提出了一种新的指导尺度嵌入策略。我们的分步蒸馏框架基于Hyper-SD[27]，该框架引入了一种新的轨迹分段一致性蒸馏（TSCD）方法，用于高效的扩散模型压缩。TSCD采用了一种分层细化策略，通过三个连续的操作阶段将轨迹保持和重新制定机制相结合：首先，Hyper-SD将整个时间步长范围[0，T]划分为k个分段（最初k=16）进行局部一致性学习，确保每个分段通过边界感知时间采样保持原始ODE轨迹特征。然后，我们在训练阶段逐步减少分段计数（k→[8,4,2,1]），实现从局部一致性到全局一致性的平稳过渡。这种分层改进减轻了误差累积，这是单级一致性蒸馏方法中的一个常见问题。

此外，我们自适应地平衡了近端预测的MSE和发散目标的对抗性损失。实验证实提高了稳定性和效率。通过整合这些阶段，TSCD在保持高保真生成的同时增强了扩散模型压缩。

七、Human Evaluation

7.1.1 Benchmark

为了全面评估文本到图像模型的性能，建立了一个严格的评估基准。这个名为Bench-240的基准测试由240个提示组成。这些提示是通过将来自公开可访问基准的代表性提示（如[39]）和手动策划的提示组合在一起而收集的。每个提示都有中英文两种语言。该基准的设计侧重于两个考虑因素：图像内容，如主体及其关系或相关行为，以及图像质量，如主体结构和美学元素。文本提示的分布是根据用户偏好调查精心校准的。

7.1.2 Human Evaluation Results

基于Bench-240，通过计算总体ELO得分，对三个关键方面进行专业评估，对各种模型进行全面比较：文本图像对齐、结构校正和美学质量text-image alignment, structural correction, and aesthetic quality。我们在图17中报告了结果。

文本-图像对齐（Text-Image Alignment）
衡量生成图像与输入文本描述的一致性。例如：若输入“一只戴礼帽的猫在弹钢琴”，模型生成的图像需准确体现猫、礼帽、钢琴等元素。

结构校正（Structural Correction）
评估图像中物体或场景的布局合理性。例如：人体姿势是否符合解剖学结构，物体比例是否协调。

美学质量（Aesthetic Quality）
判断图像的视觉吸引力，包括色彩搭配、光影效果、细节丰富度等主观感受。

Expert Evaluation on specific aspects：专业评估由专家评审员进行，他们是在各自领域具备专业技能或丰富实践经验的专业人士。

Elo-based total score：总体公众偏好是通过基于Elo（[6]）的排名系统来衡量的，该系统根据公众评论者的投票结果计算得出。

7.2 Automatic Evaluation

自动评估技术还用于评估文本到图像模型的性能，特别是那些公开可用的模型。我们的评估主要考虑两个方面：文本-图像对齐和图像质量。这里只显示英文提示结果，因为外部自动评估方法主要支持英文输入。

7.2.1 Text-Image Alignment

传统的指标，如FID（[11]）和CLIP评分（[9]），在精确测量当前文本到图像模型的图像文本对齐能力方面是不够的。因此，利用视觉语言模型（VLMs）的自动评估方法引起了人们的极大兴趣。在本研究中，我们采用了两种方法：EvalMuse（[8]）和VQAScore（[17]）。

EvalMuse:EvalMuse收集并标注了大量的图像文本对数据集，便于对生成图像中的图像文本对齐进行详细分析。通过采用FGA-BLIP2模型，该模型在多个基准测试中与人类评估表现出显著的一致性，我们在EvalMuse测试数据集上对不同的模型进行了比较，并在技能维度之间呈现了细粒度的结果。

VQAScore：VQAScore利用视觉问答（VQA）模型，通过计算生成的图像是否与提示对应的概率来得出对齐分数。在最先进的视觉语言模型（VLM）的驱动下，VQAScore达到了与人类评估相当的准确度。在这项研究中，我们利用推荐的Clip-Flant5-xxl模型来自动评估GEN-AI基准上的图像文本对齐能力。

7.2.2 Image Quality

图像质量具有高度主观性，因此在制定普遍适用和准确的评估标准方面面临着重大挑战。传统上，人们采用人类偏好指标来评估图像的视觉吸引力。在这项研究中，我们通过以下模型评估了我们模型的性能：HPSv2（[35]）和MPS（[43]）。

HPSv2：源于一个扩展的带注释的生成图像对数据集，它提供了一个稳定可靠的图像质量度量。

MPS：相反，该指标在多个维度上评估图像质量，并且已经证明它在捕捉审美感知方面表现出特别强大的辨别能力。

内部评估模型：此外，我们介绍了两种内部首选的评估模型，即内部对齐和内部美学，分别用于评估文本图像对齐和整体美学方面。

7.3 Text Rendering

为了全面评估我们模型的文本渲染能力，我们也进行了广泛的评估。最初，我们为文本呈现设计了一个专门的基准，其中包含180个中文提示和相同数量的英文提示。这些提示涵盖了广泛的类别，从徽标设计、海报、电子显示器、印刷文本到手写文本。值得注意的是，该基准还包含非传统基材上的文本渲染，例如通过排列炸薯条形成的文本或以云的外观刻字的文本，从而提供了一个多样化和全面的基准。

采用一个主观指标可用率和两个客观指标文本准确率和命中率来评估文本渲染能力。可用率是指当文本渲染几乎正确时，考虑到文本与其他内容的整合和整体美学质量，被认为可接受的图像比例。