当前位置：首页 > article >正文

Midjourney技术浅析（三）：文本编码

article 2025/2/28 23:46:19

Midjourney 的核心功能是将用户输入的文本描述（Prompts）转化为高质量的图像。为了实现这一目标，Midjourney 依赖于强大的文本编码模块，该模块负责将自然语言文本转换为机器可理解的向量表示，并捕捉文本中的语义信息。

一、文本编码模块概述

文本编码模块的主要任务是将用户输入的文本描述转换为向量表示，这些向量包含了文本的语义信息，并能够被后续的图像生成模型理解和使用。Midjourney 的文本编码模块关键步骤如下：

1.预训练语言模型（Pre-trained Language Model）: 利用预训练的语言模型对文本进行编码，捕捉文本的语义信息。

2.词嵌入（Word Embedding）: 将单词转换为向量表示。

3.上下文感知嵌入（Contextual Embedding）: 根据单词的上下文环境生成嵌入向量。

4.文本向量（Text Vector）: 将整个文本描述编码为单一的向量表示。

5.文本-图像对齐（Text-Image Alignment）: 将文本向量与图像生成模型对齐，确保生成的图像与文本描述相符。

二、详细步骤与模型

2.1 预训练语言模型（Pre-trained Language Model）

目标: 利用大规模文本语料库预训练的语言模型来捕捉文本的语义信息。

方法:

1.BERT（Bidirectional Encoder Representations from Transformers）:

BERT 是一种基于 Transformer 的双向预训练语言模型，能够捕捉单词的上下文信息。
BERT 使用掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）任务进行预训练。

$\textbf{h}$ : BERT 输出的隐藏状态，包含单词的上下文信息。

2.GPT（Generative Pre-trained Transformer）:

GPT 是一种基于 Transformer 的自回归预训练语言模型，能够生成自然语言文本。
GPT 使用语言建模任务进行预训练。

3.RoBERTa（Robustly Optimized BERT Pretraining Approach）:

RoBERTa 是 BERT 的改进版本，采用更大的数据集和更长的训练时间进行预训练。

4.其他预训练语言模型:

例如 XLNet、ALBERT、T5 等。

Midjourney 使用的模型: BERT 或 RoBERTa，因为它们在捕捉上下文信息方面表现出色。

2.2 词嵌入（Word Embedding）

目标: 将单词转换为向量表示，以便于机器学习模型进行处理。

方法:

1.静态词嵌入:

例如 Word2Vec、GloVe 等方法，为每个单词生成一个固定的向量表示。

$\textbf{w}$ : 单词的词嵌入向量。

2.上下文感知词嵌入:

例如 BERT、ELMo 等方法，根据单词的上下文环境生成嵌入向量。

$\textbf{w}_{\textrm{contextual}}$ : 单词的上下文感知嵌入向量。

Midjourney 使用的模型: BERT，因为它能够生成上下文感知的词嵌入向量。

2.3 上下文感知嵌入（Contextual Embedding）

目标: 根据单词的上下文环境生成嵌入向量，以捕捉更丰富的语义信息。

方法:

1.双向编码器:

例如 BERT 使用双向 Transformer 编码器来生成上下文感知嵌入。

$\textbf{h}_{i}$ : 第 ii 个单词的上下文感知嵌入向量。

2.自注意力机制:

例如 Transformer 使用自注意力机制来捕捉单词之间的依赖关系。

$\textbf{Q,K,V}$ : 查询向量、键向量和值向量。

Midjourney 使用的模型: BERT，因为它使用双向编码器和自注意力机制来生成上下文感知嵌入。

2.4 文本向量（Text Vector）

目标: 将整个文本描述编码为单一的向量表示，以便于后续的图像生成模型使用。

方法:

1.池化操作:

例如使用平均池化（Mean Pooling）或最大池化（Max Pooling）将所有单词的嵌入向量聚合为一个文本向量。

$\textbf{t}$ : 文本向量。
$\textbf{h}_{i}$ : 第 $i$ 个单词的上下文感知嵌入向量。

2.特殊标记:

例如 BERT 使用特殊标记 [CLS] 的嵌入向量作为文本向量。

Midjourney 使用的模型: BERT，并使用 [CLS] 标记的嵌入向量作为文本向量。

2.5 文本-图像对齐（Text-Image Alignment）

目标: 将文本向量与图像生成模型对齐，确保生成的图像与文本描述相符。

方法:

1.条件生成:

将文本向量作为条件输入，生成相应的图像。

$\textbf{I}$ : 生成的图像。
$\textbf{t}$ : 文本向量。

2.对比学习:

使用对比损失函数（Contrastive Loss）来训练模型，使文本向量与生成的图像向量尽可能接近，而与其他图像向量尽可能远离。

sim(⋅): 余弦相似度函数。
$\tau$ : 温度参数。

3.联合训练:

将文本编码器和图像生成模型联合训练，使两者协同工作。

Midjourney 可能使用的模型: CLIP（Contrastive Language-Image Pre-training） 模型。

CLIP 模型使用对比学习的方法，将文本向量与图像向量对齐，从而实现文本-图像对齐。

查看全文

http://www.kler.cn/a/463132.html

.NET | 详解通过Win32函数实现本地提权

计算机网络—————考研复试

WOFOST作物模型（2.1）：模型参数介绍

Python基于Django的web漏洞挖掘扫描技术的实现与研究（附源码，文档说明）

数据库在大数据领域的探索与实践：动态存储与查询优化

二叉树的基本数据结构类型（c语言）

OpenCV 图像处理之形态学转换

数据结构（Java）—— 栈（Stack）

OpenCV的TickMeter计时类

【Rust自学】8.3. String类型 Pt.1：字符串的创建、更新与拼接

Sentinel 介绍与使用指南：构建高可用、可靠的微服务架构

大数据面试笔试宝典之大数据运维面试

【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（二）

【Spring】Spring DI(依赖注入)详解—集合类型的注入——List、Set、Map的配置与注入

linux tar 文件解压压缩

【人工智能】Python实现时序数据预测：ARIMA与LSTM的对比

Quartus DMA IP示例使用说明--MM接口

Spring实现输出带动态标签的日志

【非关系型数据库Redis 】入门

32单片机从入门到精通之开发环境——库文件（六）