首次成功尝试!使用多模态无监督聚类的语义发现
简介
本推文介绍了来自清华大学Hanlei Zhang , Hua Xu,等人共同提出的一种多模态话语语义发现的多模态无监督聚类方法。他们在这篇收录于ACL 2024的论文《Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances》中提出了UMC方法,通过构建多模态数据的增强视图,并结合创新的高质量样本选择机制和双重对比学习策略,该方法在聚类指标方面实现了2-6%的显著提升,超越了当前的主流无监督聚类方法。
论文链接:https://arxiv.org/abs/2405.12775
代码链接:https://github.com/thuiar/UMC
一、研究背景
语义发现是近年来在自然语言处理(NLP)领域中的一个新兴方向,其本质是一个聚类任务。因此,在过去的几年里,它见证了许多无监督或半监督方法的发展。
现实世界的大部分信息往往都是多模态信息。在无监督的多模态数据中发现对话话语的语义需要整合各种模态(即文本、视频和音频),以有效挖掘多模态语言中复杂的内在语义。语义发现的传统方法通常只关注文本模态和聚类算法,未能利用现实世界中丰富的多模态信息(例如肢体语言、面部表情和音调)。尽管近年来一些无监督聚类方法通过对比学习取得了先进的性能,但它们大多聚焦于单一模态,如文本或图像模态。
该团队所研究的无监督聚类方法(UMC)可以在无监督的情况下整合多种模态的信息,从而更加准确并有效地挖掘复杂的语义。
图1 纯文本聚类结果偏离了真正的多模态话语语义
二、研究方法
UMC方法包括三个核心步骤:多模态无监督预训练、聚类和高质量样本选择、多模态表征学习。
图2 无监督多模态聚类算法UMC概述
2.1多模态无监督预训练
对于一个多模态信息,文本模态使用BERT提取信息,视频和音频模态使用Swin Transformer和WavLM提取信息,再通过Transformer编码器提取深层含义之后将他们连接。考虑到文本模态在语义发现中的核心地位,研究团队将文本模态作为锚点,使用零向量屏蔽视频或音频模态进行数据增强。通过一个非线性融合层完成模态间的融合后,进行一个无监督对比学习完成预训练。无监督对比学习的主要思想是最大化正样本对的相似性,最小化负样本对的相似性。
2.2聚类和高质量样本选择
研究团队发现,局部密度越高的样本越可能位于聚类中心,其准确率和质量也越高。因此,团队以密度作为评估高质量样本的指标。将所有样本的密度从高到低排序后,取出其中前t%个样本用于计算聚类紧凑度。对于每个聚类,给出一组候选的K值。通过上述的计算可以得到每个K值所对应的聚类的紧凑度,从中选出使得聚类紧凑度最高的一个K作为聚类的Top-K值。对所有聚类都进行上述的计算后可以得到一组高质量样本和一组低质量样本。
图3 高质量样本选择机制的图例
2.3多模态表征学习
在得到高质量样本和低质量样本后,团队使用了双重对比学习的策略。对于高质量样本,他们的伪标签比较可靠,因此通过有监督对比学习来强化他们的表征。对于低质量样本,他们的伪标签并不可靠,所以使用无监督对比学习来优化他们的分布。之后循环迭代第二步与第三步,直到阈值t线性增长到100%。
三、实验结果
3.1 性能比较
论文实验使用的数据集如表1所示,#C和#U代表聚类和话语的数量。
表 1:MIntRec、MELD-DA、IEMOCAP-DA数据集的统计数据
论文团队将UMC方法与最近的一些无监督聚类方法进行的比较,包括SCCL、CC、USNID和MCN。得到的实验结果如表2所示,可以看出UMC方法在各数据集的各项聚类指标上都优于其他的算法。其中,单独使用文本模态的UMC方法(UMC-Text)在某些指标上面的表现是不如其他一些先进的方法的。上述实验的结果可视化如图4。
表2 MIntRec、MELD-DA和IEMOCAP-DA数据集的结果
图4:从上到下依次是MIntRec、MELD-DA和IEMOCAP-DA数据集上的结果可视化
3.2 消融实验
如表三所示,团队在三个数据集上进行了消融实验,分别移除了UMC方法的不同模块,包括:(1)移除第一步多模态无监督预训练;(2)将第二步改为随机选择样本;(3)删除第三步的无监督对比学习;(4)进行第一步后直接使用其他聚类策略。消融实验结果表明, UMC方法的三个步骤都是不可或缺的。
表3:三个数据集上的消融实验结果
四、总结
论文介绍了多模态语义发现任务,并提出了一种新的无监督多模态聚类(UMC)方法来应对这一关键挑战。UMC通过构建积极的多模态数据增强,有效地利用非语言模态进行语义发现。此外,该文还提出了一种新的高质量样本选择机制和两步法的表征学习策略。UMC 在标准聚类指标方面实现了2-6%的显著改进,为相关研究提供了坚实的基础。