【论文阅读】Deep Neural Network Pruning Using Persistent Homology
摘要和介绍
PHPM按照神经元之间的组合效应的大小的升序对DNN进行删减,以防止精度的下降,其中神经元之间的组合效应是利用一维PH计算的。
已经表明PH有利于分析DNN中知识的内部表示[6],[23]。
[6] C. Corneanu, M. Madadi, S. Escalera, and A. Mart´ınez. Computing the testing error without a testing set. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2674–2682,2020.
[23] Satoru Watanabe and Hayato Yamana. Topological measurement of deep neural networks using persistent homology. International Symposium on Artificial Intelligence and Mathematics, 2020.
为了将PH应用于NP,我们在训练的DNN上构造团复合体,并计算DNN的一维PH。一维PH模型揭示了不同分辨率下DNNs中多个神经元的组合效应。基于持久同源性的剪枝方法(PHPM)按照影响大小的升序对DNN进行剪枝,以防止精度下降。我们将PHPM应用于由卷积神经网络(CNN)和全连通网络(FCN)组成的DNN中。将PHPM的准确度与全局量级剪枝方法(GMP)的准确度进行了比较,GMP是评价剪枝方法的通用基线,并已证明其与更复杂的剪枝方法相比具有竞争力。
基于[16],在训练的DNN上构建团复合体[23]。DNN被认为是加权图,其中DNN中的神经元和神经元之间的连接分别被视为顶点和边。网络权重是基于训练的DNN中的连接权重定义的,其中**以大权重连接的两个神经元被认为是“接近”**的,因为它们是密切相关的。在[23]中证明,DNN的一维PH可以反映神经元的过剩和问题的难度。这意味着一维PH对NP是有利的,因为反射为NP(network pruning)提供了有利的信息。
[16] Paolo Masulli and Alessandro EP Villa. The topology of the directed clique complex as a network invariant. SpringerPlus, 5(1):388, 2016.
持续同调相关工作
持久同源性是研究DNNs的主要方法之一。
Rieck等人提出了使用零维PH来表征和监测神经网络结构属性的神经持久性[20]。他们表明,神经持久性可以缩短训练过程,达到早期停止的可比准确性。零维PH表示连接分量的数量。它与训练过程密切相关,因为DNNs中的参数随着训练的进行而收敛,参数的收敛导致DNNs中连通分支数的收敛。
一维PH也已用于研究DNN [6]、[7]、[23]。Corneanu等人在其算法中采用PH来估计训练和测试之间的性能差距,而不使用测试数据集[6]。Watanabe等人证明,对训练DNN的网络结构的研究检测到了数据的短缺和问题的困难[23]。
一维PH表示神经元中孔洞的个数,可以反映神经元之间的组合效应。 知识的本质属性之一是从属知识的组合。事实上,例如,猫的检测是通过诸如对角线和圆圈的低级特征的组合来实现的,这些低级特征由DNN中的较低层中的神经元来表示[4]。在上层,DNN通过结合低层特征来检测耳朵和眼睛的形状,并得出图像中的对象是猫的结论。基于这些考虑,我们认为一维PH是DNN中研究知识的内部表示的主要方法之一。
Method
PHPM包括三个步骤。
1、PHPM通过将DNN视为加权有向图来在训练的DNN上构造单纯复形。虽然PHPM是在DNN上构造单纯复形的基础上发展起来的[23],但以下两点与此基础不同:(1)PHPM采用DNN的权重绝对值,其中前面的方法中使用正值;(2)PHPM采用基于堆栈的算法,其中前面的方法采用基于递归调用的算法。我们改变了算法以提高性能。
2、计算PH
3、PHPM修剪DNN的边如下:(i)通过出生和死亡的总和对同源性进行排序;(ii)以总和的升序选择同源性,其中包括在所选择的同源性中的边的数量达到目标修剪比率;以及(iii)将不包括在所选择的同源性中的边权重设置为零(这意味着该边将不再对网络的计算产生影响,实际上这条边在网络中被“去除”了)。为了识别(ii)中的同源性中包含的边,我们使用了JavaScripts的注释功能,它计算每个同源性的代表性循环[22]。
出生和死亡的总和 越小的同调群 越重要
结果评估
GMP修剪DNN中具有最低绝对值的边,它未能保持从DNN中删减的知识的平衡。相反,PHPM通过对DNNs内部表示的研究,通过对DNNs的剪枝来保持平衡。
该结果表明了以下两点。首先,PH对于研究DNN的内部表示是有用的。PH揭示了神经元组合的生与死,而不使用PH则很难捕捉到。其次,我们将能够通过对从DNN修剪的知识进行水平化来改进修剪方法。