当前位置：首页 > article >正文

【论文阅读】Deep Neural Network Pruning Using Persistent Homology

article 2025/2/28 21:03:52

摘要和介绍

PHPM按照神经元之间的组合效应的大小的升序对DNN进行删减，以防止精度的下降，其中神经元之间的组合效应是利用一维PH计算的。

已经表明PH有利于分析DNN中知识的内部表示[6]，[23]。

[6] C. Corneanu, M. Madadi, S. Escalera, and A. Mart´ınez. Computing the testing error without a testing set. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2674–2682,2020.
[23] Satoru Watanabe and Hayato Yamana. Topological measurement of deep neural networks using persistent homology. International Symposium on Artificial Intelligence and Mathematics, 2020.

为了将PH应用于NP，我们在训练的DNN上构造团复合体，并计算DNN的一维PH。一维PH模型揭示了不同分辨率下DNNs中多个神经元的组合效应。基于持久同源性的剪枝方法（PHPM）按照影响大小的升序对DNN进行剪枝，以防止精度下降。我们将PHPM应用于由卷积神经网络（CNN）和全连通网络（FCN）组成的DNN中。将PHPM的准确度与全局量级剪枝方法（GMP）的准确度进行了比较，GMP是评价剪枝方法的通用基线，并已证明其与更复杂的剪枝方法相比具有竞争力。

基于[16]，在训练的DNN上构建团复合体[23]。DNN被认为是加权图，其中DNN中的神经元和神经元之间的连接分别被视为顶点和边。网络权重是基于训练的DNN中的连接权重定义的，其中**以大权重连接的两个神经元被认为是“接近”**的，因为它们是密切相关的。在[23]中证明，DNN的一维PH可以反映神经元的过剩和问题的难度。这意味着一维PH对NP是有利的，因为反射为NP(network pruning)提供了有利的信息。

[16] Paolo Masulli and Alessandro EP Villa. The topology of the directed clique complex as a network invariant. SpringerPlus, 5(1):388, 2016.

持续同调相关工作

持久同源性是研究DNNs的主要方法之一。

Rieck等人提出了使用零维PH来表征和监测神经网络结构属性的神经持久性[20]。他们表明，神经持久性可以缩短训练过程，达到早期停止的可比准确性。零维PH表示连接分量的数量。它与训练过程密切相关，因为DNNs中的参数随着训练的进行而收敛，参数的收敛导致DNNs中连通分支数的收敛。

一维PH也已用于研究DNN [6]、[7]、[23]。Corneanu等人在其算法中采用PH来估计训练和测试之间的性能差距，而不使用测试数据集[6]。Watanabe等人证明，对训练DNN的网络结构的研究检测到了数据的短缺和问题的困难[23]。

一维PH表示神经元中孔洞的个数，可以反映神经元之间的组合效应。 知识的本质属性之一是从属知识的组合。事实上，例如，猫的检测是通过诸如对角线和圆圈的低级特征的组合来实现的，这些低级特征由DNN中的较低层中的神经元来表示[4]。在上层，DNN通过结合低层特征来检测耳朵和眼睛的形状，并得出图像中的对象是猫的结论。基于这些考虑，我们认为一维PH是DNN中研究知识的内部表示的主要方法之一。

Method

PHPM包括三个步骤。
1、PHPM通过将DNN视为加权有向图来在训练的DNN上构造单纯复形。虽然PHPM是在DNN上构造单纯复形的基础上发展起来的[23]，但以下两点与此基础不同：（1）PHPM采用DNN的权重绝对值，其中前面的方法中使用正值;（2）PHPM采用基于堆栈的算法，其中前面的方法采用基于递归调用的算法。我们改变了算法以提高性能。
2、计算PH
3、PHPM修剪DNN的边如下：（i）通过出生和死亡的总和对同源性进行排序;（ii）以总和的升序选择同源性，其中包括在所选择的同源性中的边的数量达到目标修剪比率;以及（iii）将不包括在所选择的同源性中的边权重设置为零(这意味着该边将不再对网络的计算产生影响，实际上这条边在网络中被“去除”了)。为了识别（ii）中的同源性中包含的边，我们使用了JavaScripts的注释功能，它计算每个同源性的代表性循环[22]。

出生和死亡的总和越小的同调群越重要