当前位置：首页 > article >正文

【多模态聚类】用于无标记视频自监督学习的多模态聚类网络

article 2025/3/3 6:01:10

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
用于无标记视频自监督学习的多模态聚类网络

在这里插入图片描述

0.论文摘要

多模态自监督学习越来越受到关注，因为它不仅允许在没有人工监督的情况下训练大型网络，还允许跨各种模态搜索和检索数据。在这种情况下，本文提出了一个框架，该框架从预训练的主干开始，学习一个公共的多模态嵌入空间，除了跨不同模态共享表示之外，还强制对语义相似的实例进行分组。为此，我们在训练管道中使用多模态聚类步骤扩展了实例级对比学习的概念，以捕获跨模态的语义相似性。由此产生的嵌入空间使得能够跨所有模态检索样本，甚至从不可见的数据集和不同的域中检索样本。为了评估我们的方法，我们在HowTo100M数据集上训练我们的模型，并评估其在两个具有挑战性的领域的零样本检索能力，即文本到视频检索和时间动作定位，显示了四个不同数据集上的最新结果。

1.研究背景

为了稳健地学习视觉事件和概念，人类很少单独依赖视觉输入。相反，通过组合多种感觉信号以及各种语言表示，丰富的多模态环境被用于理解。许多最近的技术试图模仿这种范式来训练有效的计算机视觉模型，特别是那些从自然存在多种模态的视频中学习的模型[1,2,36]。

在多模态视频数据上学习既有好处也有挑战。每个视频实例具有多种模态的信息。例如，除了视觉和音频模态之外，与视频中的口头叙述相对应的文本信息还提供了一种有价值的语言模态[7,21,25]。在这项工作中，我们关注学习跨多种模态的联合嵌入空间的问题。鉴于来自不同模态的特征通常不可比较，目标是学习到公共空间中的投影，在公共空间中，来自不同域但具有相似内容的特征彼此靠近，以允许跨模态的直接检索。然而，创建一个有效的联合多模态嵌入空间并不容易。首先，这些模态中的每一个都是不同的，即关于其源、如何对其进行采样和处理以及其产生的特征表示。此外，在现实世界的数据中，不幸的是，可用于从每个模态中学习这些投影的监督很弱，因为例如，音频序列可能与其视觉表示不对齐，并且相应的叙述可能存在也可能不存在于相同的时间间隔[2, 32]。

为了处理这种性质的多模态数据，最近的几种方法使用对比损失[18, 19]来学习例如联合嵌入空间中的特征表示。目标是使从同一时间实例提取的样本彼此更接近，同时将来自不同时间的样本分开。最近的工作[1, 32]表明，这种训练对于在没有额外监督的情况下在大规模数据上预训练模型是有用的，并且所得模型在几个任务上实现了有竞争力的性能，例如，当在各种数据集上进行微调时，在动作分类中。对比损失产生的一个问题是，该标准没有考虑样本在不同时间的语义结构和相似性：两个样本只要出现在不同时间，就被视为负样本对，而不管它们的语义相似性如何。这会对学习的表征产生相当大的不利影响。在学习表示的不同公式中，不是比较单个实例，而是首先使用某个聚类算法创建实例的聚类[2, 5, 11, 29]。这种方法鼓励语义上彼此相似的样本（即，同一聚类中的样本）在嵌入空间中接近。然而，如果我们对来自多模态的特征进行聚类，这些聚类可能仅在模态中单独出现，将音频实例与音频实例、视觉到视觉等聚类。因此，将来自不同模态的实例拉在一起的机制对于在联合空间中聚类来自不同模态的特征是至关重要的。这导致了我们提出的将这两种方法视为互信息的方法。

我们提出了一个多模态学习框架，该框架通过从视觉、音频和语言模态训练跨模态投影头来学习联合表征，并使用自然叙述视频的大型语料库来解释嵌入的语义相似性。所提出的多模态聚类网络（MCN）采用了一种新的架构来结合来自前面描述的两种表示学习范式的有前途的想法：通过实例级的对比损失和聚类级的语义一致性进行学习。作为我们方法的另一个新特征，我们使用多模态表示来探索联合聚类，而不是使用单独模态的聚类。结果特征允许我们在线性时间内跨不同模态进行检索。图1提供了我们方法的高级概述。

在这里插入图片描述
图1：多模态聚类网络（MCN）结合了对比损失和聚类损失，对比损失学习不同模态（如视频、音频和文本）之间的特征表示接近，聚类损失从不同视频或不同剪辑中绘制语义相关的实例，例如描绘相同语义概念（例如，切碎或油炸）的场景。（黄色方框）。

为了评估我们提出的方法，我们在两种情况下解决了零样本学习的挑战性问题：多模态视频检索和多模态时间动作定位。我们在HowTo100M数据集[33]上训练我们的系统，并评估其在YouCook2[44]和MSR-VTT[42]数据集上的检索能力，以及其在CrossTask[46]数据集上的动作检测任务和在挖掘YouTube[26] 数据集上的时间动作分割任务上的时间动作定位。仅使用来自预训练主干的特征，MCN在绝对召回率上显著优于最佳文本到视频检索基线超过3%，在召回率上优于时间动作定位基线超过3.1%，两者都是在零样本设置中。

贡献。这项工作的贡献有三个：（i）我们通过结合对比损失和聚类损失的优点，提出了一种用于多模态联合空间学习的新方法。与使用单独模态创建聚类的先前工作不同，我们的方法显示了使用多模态联合聚类的重要好处。（ii）我们证明了所提出的模型可以在联合空间中跨三种模态（视频、音频、文本）进行学习。（iii）我们在零样本设置中展示了多个下游任务的显著性能增益。这些结果表明，学习到的公共空间表示可以改进最先进的结果，而无需对目标数据集进行任何额外的训练。

2.相关工作

从多模态数据中学习

当前的方法不是收集新的带注释的数据集[12, 38]来构建各种最先进的视觉识别模型，而是利用多个社交媒体平台上可用的大量视频。当特定的语言资源（如自动生成的语音识别字幕）在叙述视频数据集中可用时，如How2[39]或HowTo100M[33]，则使用利用这些资源的适当代理任务。这种视觉字幕对最近被广泛用于视觉和语言任务的自监督模型中[3, 16, 17, 28, 31, 35, 40, 45]。在其他方法如[2, 6, 8, 21, 30, 37]中，通过仅使用相应的原始语音信号来避免对这些语言转录的需要。最近，从解说视频以及生成的语音字幕从头开始训练的模型也已经成功开发[32]。视频中自然存在的三种模态，即视觉、音频和语言流，通过[1]中该学习框架的多模态变体进一步集成。与这些工作不同，我们在本文中的目标是学习一个零样本多模态下游任务的三种模态中的联合嵌入，其中我们创建了一个嵌入空间，不同模态的特征可以直接比较。

对比学习

几种最先进的图像自监督表征学习方法的核心技术是实例对比学习[13, 22]。在该范例中，训练模型以将从相同实例(例如，图像的变换或裁剪)提取的样本彼此靠近放置，同时将来自不同实例的样本进一步推开。鉴于其与噪声对比估计（NCE）的相似性，其中两个样本只要来自不同的时间段，就被视为负样本对，在MIL-NCE[32]中，多实例学习和NCE的优点被结合起来。这种方法的优点在于，它现在允许补偿在视频和相应的文本字幕中固有地发现的未对准。上述实例对比学习的一个固有缺点是，当构建正对和负对时，它与样本之间的固有语义相似性是不可知的。在我们的工作中，我们通过引入一个聚类组件来学习批处理中多模态实例之间的语义相似性，从而将跨模态的实例级相似性放宽到语义级相似性，从而缓解了这个问题。

深度无监督聚类

考虑到在大型数据集中计算所有成对比较的高成本，更实用的解决方案是在训练期间区分实例组，而不是在每个个体实例上应用上面讨论的对比学习范例。这是通过首先预训练模型以以简单的级联方法导出数据的合适特征表示来完成的。保持表示固定，然后使用聚类算法对实例进行分组，然后使用派生的类分配作为监督来更新模型的权重[10, 43]。相比之下，最近的技术不是保持聚类步骤独立于表征学习阶段，而是联合学习视觉嵌入和聚类分配[5, 6, 11, 41]。虽然这两种方法都可以通过集成整个数据集的全局信息来产生有利于下游任务的可解释聚类结果，但在大型数据集上运行聚类算法会减慢训练速度。然而，这个问题可以通过以在线方式执行聚类来解决[11]。这些在线模型同时学习聚类和表示图像数据。然而，为了提高聚类的性能，利用叙述视频中存在的各种模式中可用的相关但非常互补的信息也是至关重要的[5]。为了学习更好的音频和视频特征提取器，最近的工作XDC[2]和SeLaVi[5]将这种聚类思想扩展到多模态空间。虽然这些方法专注于分别为每个领域学习更好的特征提取器，但我们的目标是学习联合多模态嵌入。如图2所示，这些跨域聚类方法（左）创建单独的聚类，并使用跨域伪标签作为每个特征提取器的监督。相比之下，我们的模型（右）在所有模态中创建了一个公共嵌入空间，并联合执行聚类。

在这里插入图片描述
图2：跨域聚类与联合聚类。（a）以前的方法，如XDC，在单独的空间执行聚类，并使用伪标签作为对其他域的监督。（b）我们的方法在联合空间中对来自不同模态的特征进行聚类，以学习多模态聚类。最好用彩色观看。

3.学习聚类多模态数据

为了从未标记的叙述视频有效地构建联合表示空间，我们从 $n$ 个叙述视频剪辑开始。每个视频剪辑与其对应的视觉表示、音频表示和文本叙述相关联。给定该输入，学习联合嵌入空间，其中具有语义相似的视觉、音频和文本内容的视频剪辑的嵌入彼此靠近，并且当内容不相似时分开，如图1所示。

使用[32]中的符号，对于每个剪辑，让视频 $\mathcal{V}$ 表示其视觉表示， $\mathcal{A}$ 表示其相应的音频， $\mathcal{T}$ 表示其使用自动语音识别（ASR）系统生成的匹配文本叙述。给定一组 $n$ 个相关的视频、音频和文本叙述 $\{(v_i, a_i, t_i)\}^n_{i=1} ∈ (\mathcal{V} ×\mathcal{A}×\mathcal{T} )^n$ ，如图3（a）所示，我们首先构建三个参数化映射，它们从原始视频、音频和文本信号中导出嵌入表示。变换 $\mathcal{V} → \mathbb{R}^d$ 从视频剪辑 $V$ 导出 $d$ 维嵌入表示 $\mathbb{R}^d$ ，变换 $\mathcal{A} → \mathbb{R}^d$ 和 $\mathcal{T} →\mathbb{R}^d$ ，产生相似的 $d$ 维音频和文本嵌入： $\mathbb{R}^d$ 和 $\mathbb{R}^d$ 。在这项工作中， $f$ 将从固定长度剪辑中预提取的2D和3D特征作为输入， $g$ 的输入是从音频片段中提取的log-mel频谱图，对于 $h$ ，我们使用基于句子的神经模型，该模型将一组单词转换为单个向量。关于模型架构的更多细节在第4节中。

在这里插入图片描述
图3：我们提出的框架的说明。我们的框架包括四个部分：（a）从几个模态中提取特征并将它们投影到联合空间中。（b）成对计算对比损失以跨模态拉近特征。©在批次中跨来自不同域的特征执行多模态聚类。(d)执行跨特征到多模态质心的联合预测，以汇集语义上相似的嵌入。(e)用于正规化的重建损失。最好用彩色观看。

接下来，我们引入三个损失函数来引导和正确定位这些嵌入在联合嵌入空间中。对比损失 $L_{MMS}$ 用于确保来自三种模态中的每一种的表示是可比较的。第二聚类损失 $L_{Cluster}$ 鼓励来自所有模态中语义相似样本的表示在学习的嵌入空间中保持接近。第三重建损失 $L_{Reconstruct}$ 正则化多模态公共空间特征以用于更稳定的聚类训练。训练最终模型以最小化这些损失的总和。

在这里插入图片描述

3.1 学习联合空间的对比损失

为了学习三种模态的联合空间，我们计算所有模态对 $(v, t), (t, a), (a, v)$ 的对比损失，如图3（b）所示。该损失最大化了对应于来自同一实例(视频剪辑)的任何两个模态的表示之间的相似性，同时最小化了来自一个视频剪辑到另一个视频剪辑的两个模态的冒名顶替者对的相似性。在这项工作中，我们使用掩码边缘Softmax（MMS）函数[24]，它根据两个模态的表示在B批次中学习的嵌入向量的点积来定义它们之间的相似性。为每个批次组装来自三个模态 ${V, A, T\}$ 中的每一个的特征。总对比损失 $L_{MMS}$ 是使用三种模式中的每一种的成对损失的总和：

在这里插入图片描述

其中 $L_{ta}$ 、 $L_{vt}$ 、 $L_{va}$ 分别表示与成对模态 $(t, a), (v, t), (a, v)$ 相关联的损耗。对于一对模态，例如文本模态和音频模态，个体损失 $L_{ta}$ 依次给出为：

在这里插入图片描述
其中 $a^{imp}_j$ 表示来自两个模态的冒名顶替者对，这两个模态从一批中采样但不同时出现。从 $L_{ta}$ 案例中可以看出，这种损失试图区分每批中的正样本对或真实嵌入对以及冒名顶替或负样本对。使用两个单独的部分，分别枚举正样本和负样本的空间：在一种情况下，给定文本样本与各种负音频样本配对。在第二种情况下，音频样本与各种负文本样本配对。 $(i, j, k)$ 是给定批次中视频剪辑的各种索引。 $δ$ 是凭经验选择的边际超参数。通过将所有特征投影到相同的空间并确保它们的相似性成对最大化，成对对比损失的这种公式确保了不同模态中的特征是可比较的。

3.2 聚类多模态特征

为了确保语义相关实例的表示在学习的联合多模态空间中接近，除了上述对比损失之外，还包括自监督聚类步骤作为训练过程的一部分。

在线K均值聚类

在线K均值聚类。我们应用了标准的聚类算法k-means，它以一组向量作为输入，在我们的例子中，由融合的多模态特征产生的特征 $M$ ：

在这里插入图片描述
其中我们从三个模态中获取嵌入的平均值来表示多模态实例。我们把它们分成 $k$ 个不同的组。更准确地说，它输出 $d \times k$ 质心矩阵 $C = \{μ_1, .., μ_k\}$ 每个多模态实例 $n$ 的聚类分配 $y_n$ 通过解决以下问题来定义：

在这里插入图片描述

然后我们得到一个质心矩阵 $C *$ 和一组赋值 $y^∗_n)_{n≤N}$ 。与仅利用赋值（标签）的基于伪标签的方法[10]不同，我们利用质心矩阵进行语义学习。为了覆盖用于聚类的变体语义信息，我们使用来自先前批次的特征来收集足够的实例用于在线学习。

语义质心学习

语义质心学习。学习更接近其多模态语义质心的特征。我们建议使用质心作为对比损失参考目标。该目标将来自三个模态的特征拉得更靠近其多模态实例特征 $M_n$ 的质心，并将特征推离另一质心。对于每个模态，例如文本模态，个体损失 $L_t$ 依次给出为：

在这里插入图片描述

其中 $μ^{'}$ 是多模态实例特征 $M_i$ 和 $μ^{'}$ 的最近质心。我们随后总结了三种模式的损失：

在这里插入图片描述
最后，投影特征学会在三者中更接近其质心特征，并且也学会在相似的语义中更接近。

多模态特征重建

重建有助于捕捉被对比学习/聚类抑制的特征[14]。在切洋葱的视频中，在背景中切洋葱的声音以及在前景中具有单词洋葱的语音/文本的情况下，对比学习/聚类可能将更多地关注于将视频与声音（背景）或语音（前景）相关联，而不是两者。我们假设重建损失将迫使从背景和前景两者捕获特征，这对于检索/其他下游任务是重要的。重建也是一项辅助任务，有助于规范训练和提高泛化能力[27]。我们在来自三个模态的公共空间特征之上执行重建损失，以在聚类期间稳定特征训练。对于每个模态，例如视觉模态，个体损失 $L_{v'}$ 依次给出为：

在这里插入图片描述
其中 $f^{'} (v)$ 通过将 $v$ 馈送到作为编码器和解码器的两个线性层来表示重建的特征。然后，我们将每种模式的损失相加：

4.实验

4.1 实施细节

对于所提出的MCN模型的视觉分支，我们遵循[33]，并使用来自在ImageNet[15]上训练的ResNet152模型[23]的预训练2D特征，以每秒一帧的速率提取特征，以及来自在Kinetics[12]上训练的ResNeXt-101模型[20]的预训练3D特征，以每秒获得1.5个特征。通过将2D和3D特征连接成4096维向量并随时间对特征进行最大池化来计算视频剪辑特征。对于网络的音频分支，我们计算log-mel频谱图，并使用预训练的DAVEnet模型[21]来提取音频特征。对于文本分支，采用[33]中提出的特征提取过程来提取文本表示：GoogleNews预训练的Word2vec模型[34]提供单词嵌入，然后对给定句子中的单词进行最大池化以提取句子嵌入。注意，所有骨干都是固定的，训练时不会微调。每个特征提取分支之后是单独的全连接层和用于将特征投影到公共嵌入空间中的门控单元。为了允许成对比较，来自每个不同模态的特征被设置为4096维向量。更多细节可在增刊中找到。

4.2 数据集

训练数据集。我们的模型在HowTo100M[33]教学视频数据集上进行训练，该数据集包含120万个视频及其相应的音频，包括语音和环境声音以及自动生成的语音转录。

下游数据集。YouCook2[44]数据集包含从YouTube收集的3.5 K烹饪指导视频剪辑和文本描述。与Howto100m数据集不同，YouCook2中的文本描述是人工注释的。

MSR-VTT[42]数据集包含20万个关于各种主题的人类注释视频剪辑字幕对。在我们的实验中，我们使用相同的具有[33]中构建的1K视频剪辑字幕对的测试集。CrossTask[46]数据集包含2.7 K个涵盖各种主题的教学视频。每个任务的动作步骤及其顺序是从wikiHow文章中收集的，每个帧都有手动注释。

Mining Youtube[26]数据集重点关注YouTube视频中的五道简单菜肴。测试集包含250个烹饪视频，每个任务50个，这些视频被密集地注释，即每个帧都用其各自的动作类别进行标记。

4.3 下游任务

为了证明所提出的模型的有效性，我们在两个下游任务中评估了从网络导出的嵌入：文本到视频检索和时间动作定位。我们关注零样本任务，因为我们希望访问在训练期间学习的跨模态语义嵌入的质量。当使用我们的模型执行检索时，我们通过计算两者的相似性并使用平均值来比较查询文本特征与视频和音频特征。对于动作定位，我们计算每个帧的视频-音频对到每个相应标签嵌入的相同距离，并且因此能够将视频帧与每个提供的动作步骤对齐。

文本到视频检索。该任务的目标是从视频池中检索匹配的视频，给定其基本事实文本查询描述。该模型在两个视频描述数据集上进行了测试，并在召回度量上进行了评估：R@1、R@5、R@10。这些评估用于证明三种模式的对比损失和习得的关节嵌入空间的有效性。

文本到完整视频检索。传统的文本到视频检索任务试图将字幕(或groundtruth文本查询)匹配到单个视频剪辑。由于单个字幕可以引用数据集中的许多单个剪辑，因此该任务是有限的。为此，我们提出了文本到完整视频检索的任务，其目标是将描述视频多个部分的一组字幕（或文本查询）与整个视频相匹配。这是比单个剪辑检索更现实的任务，因为各种现实世界的应用需要从复杂的文本查询中检索整个视频。我们在YouCook2数据集上使用召回度量进行评估：R@1，R@5，R@10。

时间动作定位。我们在两个时间动作定位任务上进一步评估了我们的模型。CrossTask[46]数据集考虑了剪辑级动作检测的任务。这里，对于同一视频的一组剪辑，给出了一组无序的动作标签，并且必须用相应的动作标签对剪辑进行分类。性能被报告为召回率，并计算为正确预测的剪辑与视频中剪辑总数的比率，如[46]中所用。MiningYoutube[26]数据集考虑了帧级时间动作分割的任务。这里，每个测试视频连同相应的动作及其顺序一起提供，包括背景。目标是在给定动作顺序的情况下找到视频的正确逐帧分割。给定相似性输入矩阵，我们遵循[26]中概述的推理过程来计算比对。该数据集采用两个评估指标：检测交集（IoD）[9]，定义为 $\frac{G∩D}{D}$ ：真实动作G和预测D的交集与预测D之间的比率，以及Jaccard指数，Jaccard指数是给出为 $\frac{G∩D}{G∪D}$ 的并集交集（IoU）。

4.4 与最先进方法的比较

零样本视频检索

我们首先检查YouCook2和MSRVTT数据集上文本到视频检索任务的结果（表1）。我们仅与未在相应数据集上微调的基线模型进行比较，以进行公平比较。为了允许不同方法之间的可比性，我们尽可能使用[33]中描述的固定视觉特征提取主干。对于基线MIL-NCE*[32]，我们在我们使用的相同视觉特征集上应用他们的训练策略，ResNet-152（R152）和ResNeXt-101（RX101）[33]。在YouCook2上，我们的模型明显优于先前在相同架构上的工作，与具有可训练视觉主干（TR）的模型相比，显示出甚至有竞争力的结果。我们的方法也比MSR-VTT上的其他基线表现更好。收获是，然而，没有YouCook2上的重要。我们将此归因于这样一个事实，即可用的音频和文本描述本质上都不是指导性的，因此在语义上离我们的训练集更远。

在这里插入图片描述
表1：文本到视频检索系统的比较。Mod表示使用的模态，其中V：视频，A：音频，T：文本。TR指示是否使用可训练主干。

零样本动作定位

我们在表2中检查了CrossTask和MiningYouTube数据集上的动作本地化任务。对于交叉任务，给定视频中的每一帧，我们对给定标签执行零样本分类并计算召回率。在这种零样本设置中，该模型计算视频文本相似性，以定位类似于[33]的动作步骤标签。我们的方法优于最先进的自监督学习方法[32, 33]和完全监督方法[46]，特别是在IOU和IOD度量中，它们也将来自背景类的误报预测视为行动步骤。[33]和MIL-NCE*[32]中的方法与我们的方法直接可比，因为它们使用与我们相同的特征提取器。相比之下，MIL-NCE[32]使用更强的视频主干，[45]使用额外的特征模态，如区域特征以及更强的语言模型。我们还在MiningYoutube[46]时间动作定位基准上评估了我们的模型。对于自监督[32, 33]和弱监督[26]学习，我们的方法都优于最先进的方法。更多设置，包括每个模型的数据和计算资源，都在补充中。

在这里插入图片描述
表2：时间动作定位系统的评估。

聚类指标

聚类指标。我们根据[5]提出的各种聚类指标进一步评估我们的系统。结果示于表3中。每个指标的定义都包含在附录中。这表明我们学习到的多模态特征更接近真实分布，并且在聚类中具有更高的纯度。

在这里插入图片描述
表3：通过视频片段上的GT文本注释评估的交叉任务数据集上的聚类度量的性能。

4.5 完整视频检索

为了解决从一组字幕中检索完整视频的问题，我们将每个视频分成一组剪辑，并与查询进行比较。我们评估了三种不同的方法：在剪辑预测的多数投票中，我们获得每个剪辑/字幕对的前 $k$ 个预测作为投票，并选择具有大多数投票的视频。对于视频的多数投票，对每个字幕采取视频的所有剪辑的最大预测以获得视频/字幕对。然后，选取这些预测中的前 $k$ 个作为投票，预测投票最多的视频。最后，我们的字幕平均方法包括获得对每个字幕的视频的所有剪辑的最大预测，然后对查询中的字幕集进行平均。这给出了整个视频的单个预测。

我们在YouCook2数据集上检查了文本到完整视频检索任务的结果（表4）。在获得完整视频预测的三种方法中，字幕平均比两种多数投票方案获得更好的结果。此外，我们发现我们的方法在R@1上优于先前的工作，提高了6.8%。由于我们获得了完整的视频预测，我们还使用子任务标签集作为查询字幕集对跨任务数据集执行全视频分类，其中我们实现了68.7%的前1准确率。

在这里插入图片描述
表4：YouCook2数据集上文本到完整视频检索系统的比较。预测列表示用于获得视频级预测的方法：剪辑上的多数投票（MV-Clip）、视频上的多数投票（MV-Video）和字幕平均（字幕平均）。

4.6 消融实验

为了更好地理解用于构建所提出的MCN模型的各种算法设计选择的贡献，我们对以下下游任务进行了一组消融研究：YouCook2 R@10（YR10）、MSR-VTT R@10（MR10）、跨任务平均召回（CTR）和MiningYoutube IOU（MY-IOU）。对于每种设置，我们对三种模态使用相同的特征提取器，如第4.1节所述，以进行公平的比较。更多消融在补充中。

不同损失的选择。在我们的第一组实验中，我们发现所提出的聚类不仅对于聚类相关任务至关重要，而且对于检索（MSR-VTT）任务也至关重要，如表5所示。这验证了我们的假设，即语义接近的实例应该在联合嵌入空间中紧密聚类。此外，对比损失（MMS）的选择在我们的模型中显示出更好的结果。

在这里插入图片描述
表5：对不同损失的消融研究，包括选择对比学习损失、附加聚类和重建损失。

聚类方法的不同选择。我们评估了（1）选择不同聚类方法的性能，如Sinkhorn聚类[6]和K-means[4]。（2）不同的预测目标，如使用交换预测，它使用其他模态的伪标签作为预测目标[11,2]。或者使用平均特征伪标签作为三种模态的联合预测。此外，使用簇的质心作为目标。（3）不同的预测标签，包括硬标签（one-hot）或软标签（continuous）。详细描述包含在附录中。如表6所示，我们的方法鼓励每个模态特征向语义质心靠拢，这通过明确鼓励来自不同领域的语义接近的特征聚类在一起来提高性能。

在这里插入图片描述
表6：使用各种方法、损失预测目标和标签类型对不同聚类管道的消融研究。

4.7 定性分析

我们对模型进行零样本文本到视频检索的能力进行定性分析，如图4所示。给定一个开放词汇字幕，我们的模型可以检索正确的相应视频片段。我们还可视化了使用多模态嵌入（级联的视频和音频表示）相对于仅使用视觉嵌入的功效。使用t-SNE图可视化来自交叉任务数据集的表示。我们观察到，对于如图5（b）所示的多模态特征，语义相关的实例（基于真实类）往往比从看起来更分散的对比损失（a）训练的单模态视觉特征更紧密相关。此外，对于不同的动作，多模态特征显然更容易分离。

在这里插入图片描述
图4：YouCook2上文本到视频检索任务的定性结果。排名靠前的剪辑显示出与所描述的任务以及彼此之间的高度相似性，而在视觉上不太相似。

在这里插入图片描述
图5：“制作法式吐司”任务的交叉任务数据集上的t-SNE可视化。最好用彩色观看。

5.结论

我们开发了一种新的自监督多模态聚类网络，该网络通过处理多模态数据中存在的局部（通过对比损失）和全局（通过聚类损失）语义关系来学习公共嵌入空间。多模态聚类网络是在没有任何手动注释的情况下在大型叙述视频语料库上训练的。我们在多个数据集上的广泛实验表明，创建具有聚类损失的联合视频-音频-语言嵌入空间对于良好视频表示的自监督学习至关重要。我们的方法可以扩展到更多的模态，如光流或情感特征，并应用于其他多模态数据集，用于在没有人类注释的情况下学习联合表示空间。

6.引用文献

[1] Jean-Baptiste Alayrac, Adria Recasens, Rosalia Schneider, Relja Arandjelovic, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, and Andrew Zisserman. Selfsupervised multimodal versatile networks. In NeurIPS, 2020. 1, 2, 6
[2] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, and Du Tran. Self-supervised learning by cross-modal audio-video clustering. In NeurIPS, 2020. 1, 2, 3, 8
[3] Elad Amrani, Rami Ben-Ari, Daniel Rotman, and Alex Bronstein. Noise estimation using density estimation for selfsupervised multimodal learning. In AAAI, 2021. 2, 6
[4] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Technical report, 2006. 8
[5] Yuki Asano, Mandela Patrick, Christian Rupprecht, and Andrea Vedaldi. Labelling unlabelled videos from scratch with multi-modal self-supervision. In NeurIPS, 2020. 2, 3, 7
[6] Yuki Markus Asano, Christian Rupprecht, and Andrea Vedaldi. Self-labelling via simultaneous clustering and representation learning. In ICLR, 2020. 2, 3, 8
[7] Yusuf Aytar, Carl Vondrick, and Antonio Torralba. See, hear, and read: Deep aligned representations. In arXiv preprint arXiv:1706.00932, 2017. 1
[8] Angie Boggust, Kartik Audhkhasi, Dhiraj Joshi, David Harwath, Samuel Thomas, Rogerio Feris, Dan Gutfreund, Yang Zhang, Antonio Torralba, Michael Picheny, et al. Grounding spoken words in unlabeled video. In CVPRW, 2019. 2
[9] Piotr Bojanowski, R ́ emi Lajugie, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid, and Josef Sivic. Weakly supervised action labeling in videos under ordering constraints. In ECCV, 2014. 6
[10] Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze. Deep clustering for unsupervised learning of visual features. In ECCV, 2018. 3, 5
[11] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Unsupervised learning of visual features by contrasting cluster assignments. In NeurIPS, 2020. 2, 3, 8
[12] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR, 2017. 2, 5
[13] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In ICML, 2020. 3
[14] Ting Chen and Lala Li. Intriguing properties of contrastive losses. In arXiv preprint arXiv:2011.02803, 2020. 5
[15] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009. 5
[16] Jianfeng Dong, Xirong Li, Chaoxi Xu, Xun Yang, Gang Yang, Xun Wang, and Meng Wang. Dual encoding for video retrieval by text. In IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE, 2021. 2
[17] Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid. Multi-modal transformer for video retrieval. In ECCV, 2020. 2
[18] Michael Gutmann and Aapo Hyv ̈ arinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS, 2010. 2
[19] Raia Hadsell, Sumit Chopra, and Yann LeCun. Dimensionality reduction by learning an invariant mapping. In CVPR, 2006. 2
[20] Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet? In CVPR, 2018. 5
[21] David Harwath, Adria Recasens, Dı ́dac Surı ́s, Galen Chuang, Antonio Torralba, and James Glass. Jointly discovering visual objects and spoken words from raw sensory input. In ECCV, 2018. 1, 2, 5
[22] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, 2020. 3
[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. 5
[24] Gabriel Ilharco, Yuan Zhang, and Jason Baldridge. Largescale representation learning from visually grounded untranscribed speech. In CoNLL), 2019. 4
[25] Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit. One model to learn them all. In arXiv preprint arXiv:1706.05137, 2017. 1
[26] Hilde Kuehne, Ahsan Iqbal, Alexander Richard, and Juergen Gall. Mining youtube-a dataset for learning fine-grained action concepts from webly supervised video data. In CVPR, 2019. 2, 6, 7
[27] Lei Le et al. Supervised autoencoders: Improving generalization performance with unsupervised regularizers. In NeurIPS, 2018. 5
[28] Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L Berg, Mohit Bansal, and Jingjing Liu. Less is more: Clipbert for video-and-language learning via sparse sampling. In CVPR, 2021. 2
[29] Junnan Li, Pan Zhou, Caiming Xiong, Richard Socher, and Steven CH Hoi. Prototypical contrastive learning of unsupervised representations. In ICLR, 2021. 2
[30] Yang Liu, Samuel Albanie, Arsha Nagrani, and Andrew Zisserman. Use what you have: Video retrieval using representations from collaborative experts. In BMVC, 2019. 2
[31] Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Xilin Chen, and Ming Zhou. Univilm: A unified video and language pre-training model for multimodal understanding and generation. In arXiv preprint arXiv:2002.06353, 2020. 2
[32] Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic, and Andrew Zisserman. End-to-end learning of visual representations from uncurated instructional videos. In CVPR, 2020. 2, 3, 6, 7
[33] Antoine Miech, Dimitri Zhukov, Jean-Baptiste Alayrac, Makarand Tapaswi, Ivan Laptev, and Josef Sivic. Howto100m: Learning a text-video embedding by watching hundred million narrated video clips. In ICCV, 2019. 2, 5, 6, 7
[34] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. In arXiv preprint arXiv:1301.3781, 2013. 5
[35] Mandela Patrick, Po-Yao Huang, Yuki Asano, Florian Metze, Alexander Hauptmann, Jo ̃ ao Henriques, and Andrea Vedaldi. Support-set bottlenecks for video-text representation learning. In ICLR, 2021. 2, 6
[36] AJ Piergiovanni, Anelia Angelova, and Michael S Ryoo. Evolving losses for unsupervised video representation learning. In CVPR, 2020. 1
[37] Andrew Rouditchenko, Angie Boggust, David Harwath, Dhiraj Joshi, Samuel Thomas, Kartik Audhkhasi, Rogerio Feris, Brian Kingsbury, Michael Picheny, Antonio Torralba, et al. Avlnet: Learning audio-visual language representations from instructional videos. In Interspeech, 2021. 2
[38] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. In IJCV, 2015. 2
[39] Ramon Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loı ̈c Barrault, Lucia Specia, and Florian Metze. How2: a large-scale dataset for multimodal language understanding. In Proceedings of the Workshop on Visually Grounded Interaction and Language (ViGIL). NeurIPS, 2018. 2
[40] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. In ICCV, 2019. 2
[41] Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, and Luc Van Gool. Scan: Learning to classify images without labels. In ECCV, 2020. 3
[42] Jun Xu, Tao Mei, Ting Yao, and Yong Rui. MSR-VTT: A large video description dataset for bridging video and language. In CVPR, 2016. 2, 5
[43] Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, and Dhruv Mahajan. Clusterfit: Improving generalization of visual representations. In CVPR, 2020. 3
[44] Luowei Zhou, Xu Chenliang, and Jason J. Corso. Towards automatic learning of procedures from web instructional videos. In AAAI, 2018. 2, 5
[45] Linchao Zhu and Yi Yang. Actbert: Learning global-local video-text representations. In CVPR, pages 8746–8755, 2020. 2, 6, 7
[46] Dimitri Zhukov, Jean-Baptiste Alayrac, Ramazan Gokberk Cinbis, David Fouhey, Ivan Laptev, and Josef Sivic. Crosstask weakly supervised learning from instructional videos. In CVPR, 2019. 2, 6, 7