论文阅读:Structure-Driven Representation Learning for Deep Clustering
Xiang Wang, Liping Jing, Huafeng Liu, and Jian Yu. 2023. Structure-Driven Representation Learning for Deep Clustering. ACM Trans. Knowl. Discov. Data 18, 1, Article 31 (January 2024), 25 pages. https://doi.org/10.1145/3623400
论文地址:Structure-Driven Representation Learning for Deep Clustering | ACM Transactions on Knowledge Discovery from Data
摘要
作为无监督学习方法的重要分支,聚类在数据挖掘领域具有广泛的应用。众所周知,在聚类中捕捉每个样本的组区分属性是至关重要的。在这些方法中,深度聚类由于神经网络的强大表示能力,展示了令人鼓舞的结果。然而,大多数方法采用样本级学习策略,而单独的数据点几乎无法捕捉其整体聚类的上下文,因此可能会导致次优的聚类分配。为了解决这个问题,作者提出了一种结构驱动的表示学习(SRL)方法,通过在局部和全局层次上引入潜在结构信息到表示学习过程中。具体来说,提出了一种局部结构驱动的样本表示策略,用以近似估计数据分布,该策略通过潜在结构信息建模样本的邻域分布,并利用它们之间的统计依赖性来提高聚类的一致性。此外,设计了一种全局结构驱动的聚类表示策略,根据每个聚类的样本(样本理论)和相应的原型(原型理论)充分编码每个聚类的上下文。在这种情况下,每个聚类只能与其最相似的样本相关联,而不同的聚类尽可能地分离开来。这两种模型无缝结合成一个联合优化问题,并可以有效地解决。在六个广泛使用的数据集上的实验表明,SRL在聚类方法中优于最新的技术。
动机
为了提高聚类中样本表示的质量,研究人员从数据的局部结构出发,利用对比学习(CL)来保证扰动前后的样本相似(即图1(a)中的样本聚合),并将它们与其他样本分开(即图1(b)中的样本分离),以保留最重要的信息。此外,一些方法将样本与其最近的邻居匹配,以进一步增强表示的一致性。这些方法借鉴了对比学习的优点,但也保留了其缺点,例如对负样本选择的敏感性。换句话说,它们对类别不敏感,可能会受到抽样偏差的影响。最近,一些受到自监督学习启发的研究工作利用伪标签进行负样本选择,确保具有相同伪标签的样本具有相似的表示。不幸的是,由于伪标签本质上不可靠,尤其是在训练过程的初期,可能会导致模型训练期间的错误累积,从而导致结果不稳定。
为了解决上述问题,作者提出了一种结构驱动的表示学习(SRL)方法,以稳健的方式充分探索数据的局部和全局结构。具体来说,在SRL中,提出了一种局部结构驱动的样本表示模型,充分表征每个样本,建模样本局部区域的分布。然后,通过分解数据分布并整合潜在的结构信息,可以构建相应的样本对(如图1(c)所示)。同时,设计了一种全局结构驱动的聚类表示模型,通过显著的样本(受样本理论启发)和相应的原型(受原型理论启发)充分表示每个聚类。在这种情况下,每个聚类只能与其最相似的样本相关联,而不同的聚类尽可能分离(如图1(f)所示),这将有利于聚类的稳定性。这两个模型被整合成一个可以有效解决的联合优化问题。
方法
局部结构驱动的样本表示
为了捕获样本之间的局部结构,一个自然的想法是将相同的聚类样本(正样本)拉到一起,同时将不同的聚类样本(负样本)推开。然而,在没有任何标签信息的情况下,构建不同的正样本并选择相应的负样本是一项挑战。
一些方法通过在整个数据集或当前批次中搜索最近邻样本来构造正样本【12, 49, 60, 63】,如图4(a)所示。然而,这些方法在设置最近邻样本的数量时需要谨慎,因为可能会受到正类样本冲突问题的影响,即正样本可能并不真正为正样本。受流行的显式表述样本间统计依赖关系的概率模型的启发,给定样本的局部区域可以通过其增强样本来表征。
具体而言,对于样本 xi,可以在其原始空间(例如,图像的像素值)中随机增强 M 次,得到增强的正样本集 Pi+={xi+,1,…,xi+,m,…,xi+,M}从而改善正类样本冲突问题。令 vi+,m=Φθ(xi+,m)的表示。这样,深度聚类的一个目标,即使给定样本 xi的潜在表示接近其正样本集 Pi+的潜在表示,可以通过使用高斯核最大化它们之间的相似性来实现:
其中,表示 v 被归一化,且 t1是温度参数。然而,这种方法在计算上不可行,因为损失方程(1)的计算成本与视图的数量组合相关【39, 48, 56】,如图4(b)所示。
为缓解这一问题,作者尝试在嵌入空间中对表示的分布进行建模。由于正样本基于相同样本转换且彼此相似,每个样本在潜在特征空间中可以通过高斯分布建模,即 ,这在方法中称为正样本分布 p+(xi)。然后,该分布的参数,包括均值 μi+和协方差矩阵 Σi+,可以在嵌入特征空间中计算,如图4(c)和图5(a)所示。注意,对于任何服从高斯分布的随机变量 x,即 x∼N(μ,Σ),其中 μ 是 x 的期望值,Σ 是协方差矩阵,可以得到满足以下条件的矩生成函数:
其中 a 可以是任意随机变量。因此,通过设置 a=vi和 x=v+,可以将方程(1)重写为:
需要注意的是,由于模型在训练早期阶段学习的表示不稳定,通过将 Σi+乘以标量 λ来稳定训练过程。
另一方面,在没有标签信息的情况下,难以直接从其他簇中选择样本作为当前样本的负样本并将其推离,特别是在存在采样偏差的情况下【10】。因此,提出了一种隐式方法,而非显式选择负样本的方法。在嵌入特征空间中,整体分布 p(x)可以表示为:
事实上,对于每个簇,希望所有样本彼此接近并服从同一分布。换句话说,围绕给定样本 xi的增强正样本期望与 xi 所属簇的分布一致,因此用 p+(xi)来估计 pk(xi)。然后,样本 xi的分布(方程(4))可以重写为:
其中 ki=argmaxk{sik}是当前迭代中样本 xi 所属簇的索引。并且 πk可以在聚类过程中通过指数移动平均(EMA)迭代估计:
其中 sjk表示样本 xj属于第 k 个簇的概率,mp>0 是动量因子,N 是样本总数。
因此,深度聚类的第二个重要目标,即使当前样本 xi远离其他簇的样本 p−(xi),可以通过最小化它们之间的相似性来实现:
其中 v 表示数据集中任何样本的表示。为高效计算,第一项可以通过蒙特卡洛采样估计。第二项表示当前样本与其正样本集的相似性,可以通过方程(3)计算。这意味着可以通过从整个数据和正样本中采样来近似负样本采样,从而无需显式选择负样本。
结合方程(3)和(7),提出的局部结构驱动聚类损失能够实现稳健的样本聚合和样本分离(如图5所示):
其中 Q 是权重参数,N 是样本总数。如果设置 Q=J,最小化方程(8)等价于最大化表示和输入之间的互信息,从而保证学习到的表示具有高质量。
基于全局结构的聚类表示
为了充分表示每个聚类,文献[36]中提出了原型理论和样本理论,分别使用原型或显著样本来描述组的相似性。前者通过少量原型实例直观地总结给定数据,而后者能够更好地建模复杂的高维数据分布。结合了这两种理论,以从中受益,使每个聚类仅与其最相似的样本相关,并尽可能将不同的聚类分开。
具体而言,受原型理论的启发,采用 K 个原型 C∈RD×K来建模数据的全局结构,其中 ck是第 k 个聚类的原型。然而,在没有标签信息的情况下,用特定原型表征聚类可能并不是最佳选择,例如,使用伪标签选择原型可能引入误差累积,从而影响模型稳定性[28]。因此,利用原型进一步将表示映射到概率空间,然后利用显著样本表示聚类,这一设计受样本理论启发。换句话说,第 k 个聚类可以表示为 Vck,其中 V 是嵌入空间中的表示。此外,使用 softmax 限制其范围为 [0,1],以确保模型的稳定性,即 sk=Softmax(Vck),这在文献[20]中也被称为聚类分配统计向量(ASV)。理想情况下,每个聚类仅与其最相似的样本相关,不同的聚类尽可能分离,因此当 k1≠k2 时,sk1和 sk2应该相互远离。
整体目标函数
结合公式 (8) 和公式 (11),SRL(结构表示学习)的整体目标函数可表示为:
L=LLSC+αLGSC,
其中,α 是平衡 LLSC和 LGSC两项贡献的权重。在训练的早期阶段,LLSC促使模型学习具有潜在结构信息的表示。而在训练的后期,LGSC则帮助模型更好地捕获全局簇结构,同时提高模型的稳定性。
提出的 SRL 的优化过程是一种单阶段、端到端的过程,因此可以轻松扩展到大规模数据集。在完成训练后,对于第 i 个样本,SRL 可以获得其表示 vi=Φ(xi,θ),并计算相应的预测结果 qi=Softmax(vi⋅C)。
提出的 SRL 的整体训练和测试过程总结在算法 1中。
实验
这篇重点在表示学习上,从局部和全局的角度出发。。。还得好好学习啊。。。