论文《Improving your graph neural networks:A High-Frequency Booster》笔记
【CLAR 2022 ICDMW】作者指出,现有的GNN模型主要关注于消息传递机制,但这些模型往往受限于低通滤波器的局限,导致在多层堆叠时性能下降。为了解决这个问题,论文提出了一种新的正则化方法,称为补全拉普拉斯正则化(Complement Laplacian Regularization,CLAR)。这种方法通过将原始图的补图(complement graph)引入到GNN中,以增强高频分量。作者认为补图包含了一个高通滤波器,并利用这一特性来提升GNN的表现力。
本文发表在2022年ICDMW会议上,第一作者学校:清华大学,引用量:7。
查询会议:
-
会伴:https://www.myhuiban.com/
-
CCF deadline:https://ccfddl.github.io/
原文和开源代码链接:
- paper原文:https://arxiv.org/abs/2210.08251
- 开源代码:None
0、核心内容
论文主要探讨了图神经网络在半监督节点分类任务中遇到的两个主要问题:过平滑(over-smoothing)和异配性(heterophily)。作者指出,现有的GNN模型主要关注于消息传递机制,但这些模型往往受限于低通滤波器的局限,导致在多层堆叠时性能下降。
为了解决这个问题,论文提出了一种新的正则化方法,称为补全拉普拉斯正则化(Complement Laplacian Regularization,CLAR)。这种方法通过将原始图的补图(complement graph)引入到GNN中,以增强高频分量。作者认为补图包含了一个高通滤波器,并利用这一特性来提升GNN的表现力。
论文的主要贡献包括:
- 1、问题阐述:展示了应用高频分量的必要性,并定义了将高频分量整合到图学习中的问题。
- 2、有效算法:开发了CLAR,这是一个模型无关的插件,用于增强GNNs的高频分量,并提供了理论支持。
- 3、实验验证:广泛的实验表明,CLAR能够提升GNNs在过平滑问题上的表现,增强异配图的表现力,并提高对拓扑噪声的鲁棒性。此外,它还优于其他适用高频信息的正则化方法。
论文还详细讨论了与现有工作的关系,包括基于架构的解决方案和基于正则化的解决方案,并提出CLAR作为一种新的正则化方法,它从频谱域出发,增强GNNs的高频分量。
此外,论文还提供了算法的伪代码,详细描述了CLAR的采样策略和构建正则化的方法,并通过实验验证了CLAR在不同数据集上的有效性。最后,论文总结了研究成果,并对未来的工作方向提出了展望。
1、先验知识
① 什么是正则化方法?
正则化方法在机器学习中是一种减少模型复杂度、方式过拟合的技术。在GNNs的背景下,正则化通常用来增强模型的泛化能力,提高对未见数据的预测性能。
- 过拟合问题:当一个模型在训练数据上表现得很好,但是在新的、未见过的数据上表现不佳时,就说这个模型过拟合了。这通常是因为模型学习到了训练数据中的噪声和细节,而没有捕捉到数据的一般规律。
- 正则化技术:为了减少过拟合,可以在训练过程中添加一个额外的项,这个项通常与模型的复杂度相关。这个额外的项被称为正则化项。
- L1和L2正则化:在传统的机器学习中,L1正则化(Lasso正则化)和L2正则化(Ridge正则化)是常见的形式。L1正则化倾向于产生稀疏权重,而L2正则化则倾向于让权重值小而分散。
- 在GNNs中的应用:
- 图结构正则化:通过惩罚模型对图结构的依赖,促使模型学习到更加鲁棒的特征表示,
- Dropout正则化:随机丢弃一些节点或边,以防止模型过分依赖于特定的节点或连接。
- 层间正则化:通过惩罚相邻层之间的表示差异,鼓励模型在不同层之间学习到一致的特征。
- 图拉普拉斯正则化:利用图的拉普拉斯矩阵来定义正则化项,通常与图的平滑性相关。
- 目的:正则化方法的目的是找到一个平衡点,使模型既能够学习到数据中的重要特征,又不会因为过度拟合训练数据而失去泛化能力。
- 实现方式:在优化模型时,通常将正则化项与原始的损失函数结合,形成一个包含正则化的新损失函数。模型的训练就变成了最小化这个新损失函数。
在本文中,作者提出的CLAR正则化方法,就是通过引入图的补图来增强模型对高频信息的捕捉能力,从而提高GNNs在半监督节点分类任务中的性能。
② 什么是频率响应(frequency response)?
频率响应是信号处理中的一个基本概念,它描述了一个系统(如滤波器、电路、传感器等)对不同频率信号的处理能力。在GNNs的上下文中,频率响应通常用来描述GNN对图数据中不同频率分量的敏感度。
- 定义:在信号处理中,频率响应通常指的是系统对不同频率正弦波信号的增益(或衰减)和相位变化。它可以通过系统的冲激响应的傅里叶变换来计算。
- 低通滤波器:低通滤波器允许低频信号通过,同时衰减高频信号。在频率响应图中,低频区域的响应接近1(或0 dB),而高频区域的响应迅速下降。
- 高通滤波器:高通滤波器与低通滤波器相反,它允许高频信号通过,同时衰减低频信号。在频率响应图中,高频区域的响应接近1,而低频区域的响应迅速下降。
- 带通滤波器和带阻滤波器:带通滤波器允许特定频段的信号通过,而带阻滤波器则阻止这个频段的信号通过。这两种滤波器的频率响应图在特定频率范围内会有明显的峰值或谷值。
- 在GNNs中的应用:
- 在GNNs中,频率响应可以用来分析模型对与结构中不同尺度特征的捕捉能力。例如,一些GNN模型可能主要捕捉局部的、平滑的特征(低频信息),而忽略了长距离、非平滑的特征(高频信息)。
- 通过分析GNN的频率响应,研究者可以设计出能够更好地平衡高频和低频信息的模型,从而提供模型在各种任务上的性能。
- 计算方法:在GNNs中,频率响应可以通过对图拉普拉斯的特征分解来计算。图拉普拉斯矩阵的特征值代表了图的频率分量,而GNN层的权重矩阵与这些特征值的相互作用决定了模型的频率响应。
在本文中,作者通过引入补全拉普拉斯正则化(CLAR)来调整GNN的频率响应,使其能够更好地捕捉图数据中的高频信息,从而提高模型在处理异配图和缓和过平滑问题上的性能。
2、引言
在论文《A Comprehensive Survey on Graph Neural Networks》中总结了近年来的GNNs在各个领域的繁荣。在早期时候,GNN模型经常直接应用拉普拉斯特征向量的全尺度谱滤波器,如Cheb-GCN。虽然在理论上是合理的,但由于特征分解,这些方法有高昂的计算代价。为了缓解这一问题,研究人员提出了近似的过滤器,并导致现代的GCN,聚合相邻节点的消息以更新中心节点,称为消息传递机制(message-passing,MP)。这种机制通常被定义为一种正则化方法来集成图信息。
尽管这种正则化取得了成功,但它继承了消息传递机制的问题,该机制只关注低频信息(即图拉普拉斯矩阵的低值特征值)。这往往导致多层叠加时性能严重下降,即过度平滑现象。应用现有的GNNs的另一个重要瓶颈是,具有异配性的图与MP的基本假设正交,在这种图中直接连接的节点不一定是类似的。在正则化的背景下,一系列的研究试图解决这些限制,如促进层之间的一致性,随机删除边。然而,这些解决方案从一开始就需要将低频滤波作为输入;因此,由于上述问题,相应的表达能力受到了限制。
**我们是否可以在这种设置下扩大频率的范围?**研究表明,图数据通常包含广泛的频率,高频组件在某些任务重具有优势。特别是,上述问题在高频率下可能不那么令人关切。以两种不同类型的图中的高频分量和低频分量为例:同配性和异配性,如图1所示。分类性能从低频区域到高频区域不等,这表明了高频在这项任务中的重要性。此外,当使用宽带频率敏感滤波器,如GPRGNN和Cheby-GCN时,我们从高频水平观察到可比的频率响应。这进一步加强了高频组件的作用,这应该在消息传递过程中加以考虑。
近年来,也有一些努力试图探索GNNs的高频。然而,它们都实现了新的GNN架构,并且无法适应现有的模型。这在许多成熟的场景中是不需要的,在这些场景中,不能放弃现有模型的必要属性。
**我们的工作目标是有效地利用高频组件来提高GNN的表达能力,同时保持传统GNNs的优点。**我们开发了补全拉普拉斯正则化(CLAR),它引入了高频率作为添加到现有GNNs的插件。更具体地说,在CLAR中,我们采用1)随机抽样策略来更好地从补体中捕获高频分量;2)采用原始的拉普拉斯正则化来平衡采样中的噪声连接。
本文贡献:
- 问题公式:我们说明了应用高频分量的必要性,并定义了图学习中的高频集成问题。
- 有效算法:我们开发了CLAR,一个模型无关的插件,通过理论上增强了GNNs的高频组件。
- 有效性:大量的实验表明,我们的解决方案提高了GNNs对过度平滑的性能,增强了异配图的表达性,并提高了对拓扑噪声的鲁棒性。它也优于其他利用高频信息的正则化方法。
3、相关工作
在相关工作部分,作者回顾了GNNs领域的相关工作,主要关注于解决GNNs在半监督学习任务重遇到的过度平滑问题和异配性问题。
① 消息传递机制(Message-passing Mechanism)
GNNs通过聚合邻居节点的信息来更新中心节点,这种机制被称为消息传递机制。
典型的GNN模型如GCN、GAT和SAGE等,都是基于这种机制。
② 谱解释(Spectral Explanations)
GNNs可以被视为在图拉普拉斯矩阵的特征值(频率分量)上应用滤波器。
低频分量对应于图拉普拉斯矩阵的低值特征值,而高频分量对应于高值特征值。
③ 基于架构的解决方案(Architecture-based Solutions)
为了解决过度平滑问题,研究者提出了自循环(Self-loops)、跳跃连接(Skip-connections)等方法。
为了处理异配性问题,提出了如CPGNN和H2GCN等模型,它们通过学习兼容矩阵或连接所有层来恢复以前的聚合表示。
新的架构通常包含高通滤波器来缓解这些问题,如FGACN、AdaGNN、Cheby-GCN、BernNet、GPRGNN。
④ 基于正则化的解决方案(Regularization-based Solutions)
一些研究工作开发了适用于现有GNN模型的正则化方法,如Preg、MADReg和AdaGraph等。
⑤ 与现有工作的比较
论文提出的CLAR是首个从谱域出发,通过增强高频分量来提升GNNs表现的正则化方法。
与基于架构的方法相比,CLAR以插件的形式引入高通滤波器,避免了设计全新架构的工作,同时保留了原有GNN模型的性质。
与现有正则化方法相比,CLAR实践了先进的高通滤波器特性。
4、Our Proposal:Complementary Laplacian Regularization,CLAR(补全拉普拉斯正则化)
这一部分,作者详细阐述了他们提出的补全拉普拉斯正则化(Complement Laplacian Regularization,CLAR)方法。CLAR旨在通过引入图的补图来增强GNNs对高频信号的捕捉能力,以解决过平滑和异配性问题。
主要理论:
- 定理1:作者提出了一个理论基础,即原始图的补图可以构成一个高通滤波器。基于这个理论,他们提出了在补图上构建拉普拉斯正则化项,以实现对原始图信号的高频增强。
采样策略:
- 基于节点的采样:对于每个节点,从补图中随机采样一定数量的节点,构成采样补图。
- 基于边的采样:考虑节点度的影响,对于图中的每条边,从补图中随机采样一定数量的节点,构成采样补图。
构建正则化:
- CLAR正则化:结合了高通滤波器(基于采样补图的拉普拉斯正则化)和低通滤波器(基于原始图的拉普拉斯正则化)的正则化项。通过调整两个正则化项的权重,可以控制模型对高频和低频信息的捕捉能力。
算法实现:作者提供了CLAR的算法实现,包括采样策略和正则化项的计算。
实验验证:
- 作者通过实验验证了CLAR在不同数据集上的有效性,包括同配图和异配图。实验结果表明,CLAR能够有效地提升GNNs在半监督节点分类任务中的性能,尤其是在处理异配图时。
与其他正则化方法的比较:
- 作者还对CLAR与其他正则化方法进行了比较,包括Network Lasso、P-reg、MADReg和AdaGraph等。通过谱分析,他们指出只有CLAR具有高通滤波器的特性,这使得CLAR在增强高频信息方面具有独特优势。
5、实验部分
数据集:
拟合人工滤波器的均方误差(Mean Squared Error,MSE):
分类精度:
6、参考资料
- kimi:https://kimi.moonshot.cn/