ChebyKAN0、ChebyKAN1 网络阅读
目录
ChebyKAN0
Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation
参考文献
文章内容
文章详细结构
5. Experiments and Results
5.1 Digit Classification on MNIST
5.2 Function Approximation
6. Test on Fractal Function
6.1 Experimental Setup
6.2 Results
6.3 Ablation Studies
总结
没有确指出具体的网络层数和神经元数量,而是强调了 Chebyshev KAN 的灵活性和可扩展性。
这段代码定义了一个名为 MNISTCheby2KAN 的神经网络类,用于 MNIST 数字分类任务。它使用了 Chebyshev KAN 层和层归一化 (Layer Normalization) 来构建网络结构。
layer norm
第七章
消融实验
6.3 Ablation Studies
6.3.1 Initialization Methods
6.3.2 Degree of Chebyshev Polynomials
6.3.3 Input Normalization
6.3.4 Chebyshev Polynomial Types
总结
ChebyKAN1
文章中涉及偏微分方程 (PDE) 的实验主要包括以下三个案例:
3.3.1
3.4
3.5
3.6
3.7
3.8
ChebyKAN0
Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation
参考文献
[1] Rossi, F., & Conan-Guez, B. (2005). 功能多层感知机:用于功能性数据分析的非线性工具。
[2] Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Soljačić, M., Hou, T. Y., & Tegmark, M. (2024). KAN:科尔莫戈罗夫-阿诺德网络。
[3] Rivlin, T. J. (1974). 第二章,极值性质。在《切比雪夫多项式》一书中。纯粹与应用数学(第一版)。纽约-伦敦-悉尼:约翰威利父子出版社。
[4] Schmidt-Hieber, J. (2021). 重新审视科尔莫戈罗夫-阿诺德表示定理。
[5] Goldman, R. (2002). B-样条逼近与德布尔算法。
[6] Braun, J., Griebel, M. (2009). 关于科尔莫戈罗夫超位置定理的构造性证明。
[7] 切比雪夫,P. L. (1854). “被称为平行四边形的机构的理论”。
[8] Glimm, J. (1960). “C*-代数的斯通-外尔斯特拉斯定理”。
[9] Dragomir, S. S. (2003). “关于柯西-布尼亚科夫斯基-施瓦茨型离散不等式的综述”。
[10] Cesarano, C., and Ricci, P. E. (2019). 伪切比雪夫函数的正交性质(切比雪夫主题的变奏)。
[11] Karageorghis, A. (1987). 关于无限可微函数的一般阶导数的切比雪夫系数的注记。
[12] Dubey, S. R., Singh, S. K., Chaudhuri, B. B. (2021). 深度学习中的激活函数:综述与基准测试。
[13] Riechers, P. M. (2024). LayerNorm的几何学与动态学。
[14] Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). “循环网络中的梯度流:学习长期依赖关系的困难”。
[15] Deng, L. (2012). MNIST手写数字图像数据库:机器学习研究的最佳网络资源。
[16] Goodfellow, I.; Bengio, Y.; Courville, A. (2016). 深度学习。麻省理工学院出版社。
[17] SynodicMonth. ChebyKAN. GitHub仓库。
[18] Jeng, Jin-Tsong & Lee, Tsu-Tian. “基于切比雪夫多项式的统一模型(CPBUM)神经网络,用于非线性H∞问题的识别与控制”。
[19] Shukla, Khemraj et al. “在微分方程和算子网络表示中,MLP与KAN的全面和公平比较”。
[20] Narkhede, Meenal V., Bartakke, Prashant P., Sutaone, Mukul S. “神经网络权重初始化策略的综述”。
文章内容
这篇文章介绍了一种名为 Chebyshev Kolmogorov-Arnold Network (Chebyshev KAN) 的新型神经网络架构,旨在更有效地逼近复杂非线性函数。
Chebyshev KAN 的核心思想:
-
Kolmogorov-Arnold 定理: 该定理表明任何连续的多变量函数都可以表示为有限数量的单变量函数的叠加(组合)以及一组线性运算。Chebyshev KAN 利用这个定理,将复杂的多变量函数分解为更简单的单变量函数,从而更容易进行近似。P2
-
Chebyshev 多项式: 这些多项式以其优异的逼近特性而闻名,特别是其快速收敛和数值稳定性。Chebyshev KAN 使用 Chebyshev 多项式来参数化网络边缘上的可学习函数,从而提高函数逼近的精度和效率。P4
Chebyshev KAN 的架构:
-
输入数据转换: 首先,输入数据被转换为一组 Chebyshev 多项式,这些多项式作为函数逼近的基础。P4
-
可学习 Chebyshev 系数: 网络使用可学习的 Chebyshev 系数来调整函数逼近的形状和复杂度。P4
-
网络计算: 通过 Einstein 求和运算,将 Chebyshev 多项式和 Chebyshev 系数结合起来,产生最终的输出。P4
Chebyshev KAN 的优势:
-
参数效率: 相比于传统的多层感知机 (MLP),Chebyshev KAN 使用更少的参数就能达到更高的精度。P5
-
动态激活函数: 可学习的激活函数能够根据输入数据动态调整,从而更好地捕捉复杂的非线性关系。P5
-
增强可解释性: 可视化边缘上的可学习函数,可以更好地理解网络如何处理和转换输入数据。P5
-
改进的数值稳定性和逼近精度: Chebyshev 多项式的正交性和递归性质确保了网络的稳定性和效率。P5
实验结果:
-
MNIST 数字分类: Chebyshev KAN 在 MNIST 数据集上实现了 98% 的测试精度,优于传统的 MLP。P6
-
函数逼近: Chebyshev KAN 在逼近各种合成函数方面表现出色,包括多项式函数、三角函数和具有不连续性的函数。P6
-
分形函数逼近: Chebyshev KAN 成功地逼近了复杂的分形函数,证明了其处理复杂、高维数据的能力。P6P7
消融研究:
-
初始化方法: Xavier 初始化方法取得了最佳的整体性能。P8
-
Chebyshev 多项式的度数: 三次多项式在 MNIST 数据集上取得了最佳平衡。P8
-
输入归一化: 标准化方法略微优于 tanh 归一化和 Min-Max 缩放。P8
-
Chebyshev 多项式的类型: 第二类 Chebyshev 多项式在 MNIST 和函数逼近任务上表现更好。P8
结论:
Chebyshev KAN 是一种很有前途的神经网络架构,它结合了近似理论和 Chebyshev 多项式的优点,为非线性函数逼近提供了更有效、更灵活的解决方案。它在各种任务中都表现出色,并具有更好的可解释性。Chebyshev KAN 有望在各种科学和工程领域中找到广泛的应用。
文章详细结构
1. 引言
-
介绍非线性函数逼近的重要性以及传统 MLP 的局限性。P1
-
提出 Chebyshev KAN 作为一种新的解决方案,并概述其优势。P1
2. Kolmogorov-Arnold 定理
-
解释 Kolmogorov-Arnold 定理的内容和意义。P2
-
说明该定理如何将复杂函数分解为简单的单变量函数。P2
3. Chebyshev 多项式
-
定义和解释 Chebyshev 多项式的类型(第一类和第二类)。P3
-
介绍 Chebyshev 多项式的性质,包括递归关系和正交性。P3
-
讨论 Chebyshev 多项式的应用,特别是其在函数逼近中的作用。P2P3
4. The Chebyshev Kolmogorov-Arnold Network
-
详细介绍 Chebyshev KAN 的架构和工作原理。P4P5
-
解释 Chebyshev 多项式如何用于表示输入数据和参数化可学习函数。P4
-
阐述网络计算的过程。P4
-
强调 Chebyshev KAN 相比于传统 MLP 的优势,包括参数效率、动态激活函数、可解释性和数值稳定性。P5
5. Experiments and Results
-
介绍实验设置,包括 MNIST 数字分类和函数逼近任务。P6
-
展示实验结果,证明 Chebyshev KAN 的有效性。P6P7
-
分析 Chebyshev KAN 在不同任务上的性能表现。P6P7
6. Test on Fractal Function
-
介绍分形函数的特点以及逼近分形函数的挑战。P6
-
展示 Chebyshev KAN 在逼近分形函数方面的能力。P6P7
7. Ablation Studies
-
通过消融研究,分析不同初始化方法、归一化方法、Chebyshev 多项式的度数和类型对网络性能的影响。P8
-
讨论实验结果,并总结不同参数对网络性能的影响。P7P8
8. 结论
-
总结 Chebyshev KAN 的优势和贡献。P8P9
-
展望未来的研究方向和应用前景。P9
9. 参考文献
- 列出文章中引用的参考文献。P9
5. Experiments and Results
这一章通过实验验证 Chebyshev KAN 在不同任务上的有效性和优越性。
5.1 Digit Classification on MNIST
-
数据集: MNIST 数据集是一个包含手写数字图像的标准数据集,用于评估图像分类算法的性能。P6
-
实验设置:
- 使用 Chebyshev KAN 模型进行数字分类,模型包含多个 Chebyshev KAN 层和全连接层。P6
- 输入图像被展平并使用双曲正切函数归一化到 [-1, 1] 范围。P6
- 使用不同的初始化方法进行实验,包括 Xavier 初始化、He 初始化、LeCun 初始化、均匀随机初始化和正交初始化。P8
-
结果:
- Chebyshev KAN 模型在 MNIST 数据集上实现了 98% 的测试精度,优于传统的 MLP。P6
- 不同初始化方法对模型性能的影响较大,其中 Xavier 初始化方法取得了最佳的整体性能。P7P8
5.2 Function Approximation
-
目标: 评估 Chebyshev KAN 在逼近各种合成函数方面的能力。
-
实验设置:
- 生成合成数据,包括多项式函数、三角函数和具有不连续性的函数。P6
- 使用 Chebyshev KAN 模型进行训练,以最小化预测输出和实际输出之间的均方误差 (MSE)。P6
-
结果:
- Chebyshev KAN 模型在逼近各种合成函数方面表现出色,MSE 较低。P6
- 与传统的 MLP 相比,Chebyshev KAN 能够更好地捕捉目标函数中的非线性关系。P6
6. Test on Fractal Function
这一章探讨 Chebyshev KAN 在逼近复杂分形函数方面的能力。
6.1 Experimental Setup
-
分形函数: 定义一个种子函数,并应用分形变换来生成复杂的分形函数。P7
-
数据生成: 在二维网格上均匀采样输入数据,并使用分形函数计算相应的输出数据。P7
-
模型训练: 使用 Chebyshev KAN 模型进行训练,以最小化预测输出和实际输出之间的均方误差 (MSE)。P6
6.2 Results
-
Chebyshev KAN 模型成功地逼近了分形函数,证明了其处理复杂、高维数据的能力。P7
-
训练过程中,模型损失显著降低,表明模型能够有效地学习分形函数的复杂模式。P7
6.3 Ablation Studies
-
初始化方法: 比较不同初始化方法对模型性能的影响,包括 Xavier 初始化、He 初始化、LeCun 初始化、均匀随机初始化和正交初始化。P8
-
Chebyshev 多项式的度数: 研究不同 Chebyshev 多项式的度数对模型精度的影响,并分析模型复杂度和泛化能力之间的平衡。P8
-
输入归一化: 比较不同输入归一化方法对模型性能的影响,包括 tanh 归一化、Min-Max 缩放和标准化。P8
-
Chebyshev 多项式的类型: 比较使用第一类和第二类 Chebyshev 多项式对模型性能的影响。P8
-
结果:
- 初始化方法对模型性能的影响较大,其中 Xavier 初始化方法取得了最佳的整体性能。P7P8
- 三次 Chebyshev 多项式在 MNIST 数据集上取得了最佳平衡。P8
- 标准化方法略微优于 tanh 归一化和 Min-Max 缩放。P8
- 第二类 Chebyshev 多项式在 MNIST 和函数逼近任务上表现更好。P8
总结
第 5 章和第 6 章通过实验和消融研究,验证了 Chebyshev KAN 在数字分类、函数逼近和分形函数逼近方面的有效性。结果表明,Chebyshev KAN 能够有效地逼近复杂非线性函数,并具有优于传统 MLP 的性能。
没有确指出具体的网络层数和神经元数量,而是强调了 Chebyshev KAN 的灵活性和可扩展性。
Chebyshev KAN 的核心结构:
-
Chebyshev KAN 层: 由输入层、Chebyshev 多项式计算层和输出层组成。
-
Chebyshev 多项式计算层: 对每个输入特征计算 Chebyshev 多项式,并将其作为新的特征表示。P4
-
输出层: 使用可学习的 Chebyshev 系数对 Chebyshev 多项式进行加权求和,得到最终的输出。P4
网络层数和神经元数量的选择:
-
输入层: 输入层神经元数量取决于输入数据的维度。
-
Chebyshev KAN 层数: 可以根据任务复杂度和数据规模进行调整。更多的层数可以提供更高的模型复杂度,但也可能增加计算量和过拟合的风险。
-
Chebyshev 多项式的度数: 度数的选择取决于输入数据的范围和函数的复杂度。较高的度数可以提供更高的逼近精度,但也可能导致过拟合和计算量增加。P8
-
输出层: 输出层神经元数量取决于输出数据的维度。
文章中的示例:
-
MNIST 数字分类: 使用多个 Chebyshev KAN 层和全连接层。P6
-
函数逼近: 使用单个 Chebyshev KAN 层。
总结:
Chebyshev KAN 的网络结构可以根据具体任务进行调整。选择合适的层数、神经元数量和 Chebyshev 多项式的度数,可以平衡模型复杂度、计算量和逼近精度。
# Construct a Cheby2KAN for MNIST class MNISTCheby2KAN(nn.Module): def __init__(self): super(MNISTCheby2KAN, self).__init__() self.cheby2kan1 = Cheby2KANLayer(28*28, 32, 4) self.ln1 = nn.LayerNorm(32) # To avoid gradient vanishing caused by tanh self.cheby2kan2 = Cheby2KANLayer(32, 16, 4) self.ln2 = nn.LayerNorm(16) self.cheby2kan3 = Cheby2KANLayer(16, 10, 4) def forward(self, x): x = x.view(-1, 28*28) # Flatten the images x = self.cheby2kan1(x) x = self.ln1(x) x = self.cheby2kan2(x) x = self.ln2(x) x = self.cheby2kan3(x) return x这是这篇文章的mnist数据集代码。详细解释
这段代码定义了一个名为 MNISTCheby2KAN
的神经网络类,用于 MNIST 数字分类任务。它使用了 Chebyshev KAN 层和层归一化 (Layer Normalization) 来构建网络结构。
类定义:
python
复制
class MNISTCheby2KAN(nn.Module):
这段代码继承自 nn.Module
类,这是 PyTorch 中所有神经网络的基类。
网络结构:
-
输入层: 网络的输入是 MNIST 数据集中的图像,每个图像被展平成 28x28 = 784 维的向量。
-
Cheby2KAN 层: 网络包含三个 Cheby2KAN 层,每个层使用第二类 Chebyshev 多项式 (Cheby2) 来参数化可学习函数。
-
cheby2kan1
: 第一个 Cheby2KAN 层,将输入维度从 784 降低到 32。 -
cheby2kan2
: 第二个 Cheby2KAN 层,将输入维度从 32 降低到 16。 -
cheby2kan3
: 第三个 Cheby2KAN 层,将输入维度从 16 降低到 10,对应于 10 个数字类别。
-
-
层归一化: 每个 Cheby2KAN 层后面都使用了层归一化,以避免梯度消失问题,并提高模型的训练稳定性。
前向传播函数:
python
复制
def forward(self, x):
这个函数定义了网络的前向传播过程。
-
输入展平:
x = x.view(-1, 28*28)
将输入图像展平成 784 维的向量。 -
Cheby2KAN 层: 输入向量依次通过三个 Cheby2KAN 层进行计算。
-
层归一化: 每个 Cheby2KAN 层的输出都经过层归一化处理。
-
输出: 网络的最终输出是第三个 Cheby2KAN 层的输出,它包含 10 个数字类别的预测概率。
总结:
这段代码展示了如何使用 Chebyshev KAN 层构建一个简单的 MNIST 数字分类模型。该模型使用了三个 Cheby2KAN 层和层归一化来提高模型的性能和训练稳定性。
layer norm
self.ln1 = nn.LayerNorm(32) # To avoid gradient vanishing caused by tanh到底是什么意思
这段代码中的 self.ln1 = nn.LayerNorm(32)
定义了一个层归一化 (Layer Normalization) 层,其输入维度为 32。注释 To avoid gradient vanishing caused by tanh
解释了使用层归一化的目的,即避免由于双曲正切函数 (tanh) 导致的梯度消失问题。
梯度消失问题:
在深度神经网络中,梯度消失问题是指随着网络层数的增加,梯度在反向传播过程中逐渐减小,最终趋近于零。这会导致网络无法有效地学习参数,从而影响模型的训练和收敛。
tanh 函数与梯度消失:
双曲正切函数 (tanh) 是一种常用的激活函数,其输出范围在 [-1, 1] 之间。然而,tanh 函数的导数在输入值接近 0 时接近 1,而在输入值接近 -1 或 1 时接近 0。这导致当输入值较大时,梯度传递到前面的层时会被显著缩小,从而引发梯度消失问题。
层归一化的作用:
层归一化通过对每个神经元输入进行归一化处理,使其具有相同的均值和方差,从而避免梯度消失问题。具体来说,层归一化首先计算每个神经元输入的均值和方差,然后将其标准化为均值为 0,方差为 1 的分布。最后,层归一化使用可学习的参数对标准化后的数据进行缩放和平移,以恢复其原始的表示能力。
总结:
在这段代码中,使用层归一化的目的是为了防止由于 tanh 函数导致的梯度消失问题,从而提高模型的训练稳定性和收敛速度。
第七章
总结了 Chebyshev KAN 的优势和贡献,并展望了未来的研究方向和应用前景。
Chebyshev KAN 的优势:
-
参数效率: Chebyshev KAN 使用更少的参数就能达到与传统 MLP 相当甚至更高的精度,这使其更适合处理大规模数据集和复杂函数。P5
-
动态激活函数: 可学习的激活函数能够根据输入数据动态调整,从而更好地捕捉复杂的非线性关系,提高模型的适应性和泛化能力。P5
-
增强可解释性: 可视化边缘上的可学习函数,可以更好地理解网络如何处理和转换输入数据,这对于科学和工程应用至关重要。P5
-
改进的数值稳定性和逼近精度: Chebyshev 多项式的正交性和递归性质确保了网络的稳定性和效率,使其能够有效地逼近复杂非线性函数。P5
Chebyshev KAN 的贡献:
-
推进非线性函数逼近: Chebyshev KAN 为非线性函数逼近提供了一种新的、更有效的方法,克服了传统 MLP 的局限性。P8
-
增强模型可解释性: Chebyshev KAN 的可解释性使其更适合科学和工程应用,有助于理解模型的行为并进行改进。P5
-
促进神经网络设计: Chebyshev KAN 的成功为未来神经网络设计提供了新的思路,例如结合其他类型的正交函数或优化方法。
未来研究方向:
-
更复杂的数据集: 将 Chebyshev KAN 应用于更复杂和多样化的数据集,例如图像识别、语音识别和自然语言处理等。
-
更复杂的模型结构: 探索将 Chebyshev KAN 与其他神经网络架构相结合,例如卷积神经网络 (CNN) 或循环神经网络 (RNN),以处理更复杂的任务。
-
更广泛的机器学习框架: 将 Chebyshev KAN 集成到更广泛的机器学习框架中,例如强化学习和迁移学习,以扩展其应用范围。
应用前景:
Chebyshev KAN 有望在各种科学和工程领域中找到广泛的应用,例如:
-
物理学: 模拟物理现象,例如流体动力学和量子力学。
-
工程: 设计和控制复杂系统,例如机器人、飞机和汽车。
-
数据科学: 分析和预测复杂数据,例如金融市场数据和医疗数据。
总结:
Chebyshev KAN 是一种很有前途的神经网络架构,它结合了近似理论和 Chebyshev 多项式的优点,为非线性函数逼近提供了更有效、更灵活的解决方案。它在各种任务中都表现出色,并具有更好的可解释性。Chebyshev KAN 有望在各种科学和工程领域中找到广泛的应用,并推动神经网络设计的发展。
消融实验
Ablation Studies(消融研究)是一种用于评估模型不同组件对整体性能影响的方法。通过系统地移除或修改模型的某个部分,可以了解该部分对模型性能的贡献程度。
6.3 Ablation Studies
这一节通过消融研究,分析了不同初始化方法、归一化方法、Chebyshev 多项式的度数和类型对 Chebyshev KAN 模型性能的影响。
6.3.1 Initialization Methods
-
目的: 比较不同初始化方法对模型性能的影响。
-
方法: 使用不同的初始化方法初始化 Chebyshev KAN 模型的可学习参数,包括 Xavier 初始化、He 初始化、LeCun 初始化、均匀随机初始化和正交初始化。P8
-
结果:
-
Xavier 初始化方法取得了最佳的整体性能,包括训练损失、测试损失和测试精度。P8
-
LeCun 和均匀随机初始化在训练阶段表现较好,但测试性能略低于 Xavier 初始化。P8
-
正交初始化和标准初始化表现略差。P8
-
6.3.2 Degree of Chebyshev Polynomials
-
目的: 研究不同 Chebyshev 多项式的度数对模型精度的影响,并分析模型复杂度和泛化能力之间的平衡。
-
方法: 使用不同度数的 Chebyshev 多项式构建 Chebyshev KAN 模型,并评估其在 MNIST 数据集上的测试精度。P8
-
结果:
-
将 Chebyshev 多项式的度数从 2 增加到 3,模型的测试精度略有提高。P8
-
将度数增加到 4,模型的测试精度显著下降,表明模型过度复杂,导致过拟合。P8
-
将度数增加到 5,模型的测试精度略有提高,但仍低于度数为 3 的模型。P8
-
6.3.3 Input Normalization
-
目的: 比较不同输入归一化方法对模型性能的影响。
-
方法: 使用不同的输入归一化方法预处理 MNIST 数据集,包括 tanh 归一化、Min-Max 缩放和标准化。P8
-
结果:
-
tanh 归一化和 Min-Max 缩放取得了相似的测试精度。P8
-
标准化方法的测试精度略高于 tanh 归一化和 Min-Max 缩放。P8
-
6.3.4 Chebyshev Polynomial Types
-
目的: 比较使用第一类和第二类 Chebyshev 多项式对模型性能的影响。
-
方法: 使用第一类 Chebyshev 多项式和第二类 Chebyshev 多项式分别构建 Chebyshev KAN 模型,并评估其在 MNIST 数据集和函数逼近任务上的性能。P8
-
结果:
-
使用第二类 Chebyshev 多项式的模型在 MNIST 数据集上取得了更高的测试精度,在函数逼近任务上取得了更低的均方误差 (MSE)。P8
-
第一类 Chebyshev 多项式的正交性提供了更稳定和高效的逼近,但需要更多的参数才能达到类似的精度。P8
-
总结
通过消融研究,我们了解到不同初始化方法、归一化方法、Chebyshev 多项式的度数和类型对 Chebyshev KAN 模型性能的影响。这些结果有助于我们更好地理解模型的行为,并选择合适的参数配置来提高模型的性能。
ChebyKAN1
布朗大学GE Karniadakis院士:探讨MLP与KAN网络在微分方程和算子的全面、公平比较(含code链接)这篇名为《布朗大学GE Karniadakis院士:探讨MLP与KAN网络在微分方程和算子的全面、公平比较(含code链接)》的文章探讨了Kolmogorov-Arnold网络 (KAN) 与传统的多层感知器 (MLP) 在解决科学机器学习 (SciML) 问题上的比较。文章重点分析了 KAN 在逼近不连续和振荡函数、结构保持动力系统、偏微分方程 (PDE) 解逼近、不确定性量化和算子学习等方面的性能。
主要内容包括:
-
KAN 的优势: 与 MLP 相比,KAN 具有参数效率高、动态激活函数、可解释性强和数值稳定等优点。P2
-
PIKAN 和 DeepOKAN: 文章介绍了将 KAN 与物理信息神经网络 (PINN) 和深度算子网络 (DeepONet) 结合的模型,分别称为 PIKAN 和 DeepOKAN。P2P3
-
基准测试: 文章通过一系列基准测试,比较了基于 MLP 和 KAN 的模型在不同 SciML 问题上的性能,包括不连续函数逼近、结构保持哈密顿动力系统、PDE 解逼近、不确定性量化和算子学习等。P4
-
敏感性分析: 文章分析了 KAN 的稳定性,并探讨了隐藏层数和多项式阶数对模型性能的影响。P2
-
信息瓶颈理论: 文章使用信息瓶颈理论分析了 PIKAN 的学习动态,并与其他基于 MLP 的模型进行了比较。P4
-
未来研究方向: 文章提出了将 KAN 应用于更广泛的 SciML 问题,例如大规模 PDEs、与时间相关的 PDEs 和工业复杂问题等。P32
文章的主要结论:
-
KAN 在逼近函数和算子学习方面具有与 MLP 相当甚至更高的精度。P31P32
-
KAN 的稳定性需要进一步研究,例如使用递归公式或基于残差的注意力机制。P2
-
KAN 可以与 PINN 和 DeepONet 结合,用于解决更复杂的 SciML 问题。P2P3
-
信息瓶颈理论可以有效地分析 KAN 的学习动态。P4
文章的意义:
-
推动了 SciML 领域的发展,为解决复杂科学问题提供了新的工具。
-
深入分析了 KAN 的性能和局限性,为未来的研究提供了指导。
-
遵循 FAIR 原则,公开数据和代码,促进了学术交流和合作。P2
总而言之,这篇文章为 KAN 在 SciML 领域的应用提供了全面的评估,并为未来的研究方向提供了有价值的见解。
文章中涉及偏微分方程 (PDE) 的实验主要包括以下三个案例:
1. 亥姆霍兹方程
-
目的: 比较基于 MLP 和 KAN 的模型在逼近亥姆霍兹方程解方面的性能,并分析模型复杂度、计算时间和稳定性。P31P32
-
方法:
-
使用 PINN 和 PIKAN 模型逼近二维亥姆霍兹方程的解。P31
-
比较不同模型(PINN、PIKAN、PIKAN 多重网格、cPIKAN、cPIKAN + RBA)的精度和效率。P31
-
分析模型对隐藏层数和多项式阶数的敏感性。P31
-
可视化模型损失景观,分析其凸性和收敛行为。P31
-
-
结果:
-
cPIKAN 模型在精度和效率方面优于 PINN,且参数数量更少。P31P32
-
增加隐藏层数或多项式阶数会降低模型性能,并可能导致不稳定。P31
-
cPIKAN(𝑅) 模型恢复了 PINN 的稳定性,并具有理想的损失景观。P31
-
2. 纳维-斯托克斯方程
-
目的: 比较基于 MLP 和 KAN 的模型在模拟不同雷诺数下顶盖驱动腔流方面的性能,并分析模型对噪声数据的鲁棒性。
-
方法:
-
使用 PINN 和 PIKAN 模型模拟二维稳态不可压缩纳维-斯托克斯方程。P31
-
比较不同模型(PINN、cPIKAN、cPIKAN + RBA)在低雷诺数和高雷诺数下的模拟结果。P31P32
-
分析模型对噪声数据的鲁棒性。P32
-
-
结果:
-
基于 雅可比 多项式的 PIKAN 模型在高雷诺数流动模拟中表现出良好的性能。P32
-
cPIKAN 模型在准确性和训练时间方面优于 PINN,但每次迭代的训练时间更长。P32
-
RBA 技术可以提高 PINN 和 PIKAN 的精度。P32
-
EVM 技术可以解决 PIKAN 模型在高雷诺数流动训练中的不稳定问题。P32
-
3. 艾伦-卡恩方程
-
目的: 比较基于 MLP 和 KAN 的模型在求解二维非线性艾伦-卡恩方程方面的性能。
-
方法:
-
使用 PINN、cPIKAN、cPIKAN + RBA 和 PINN + RBA 模型求解艾伦-卡恩方程。P21
-
比较不同模型的精度和效率。P23
-
-
结果:
-
PINN + RBA 模型在精度和效率方面优于其他模型。P23
-
cPIKAN 和 cPIKAN + RBA 模型的精度相似。P23
-
总结:
文章通过实验结果表明,基于 KAN 的模型在求解 PDE 方面具有与基于 MLP 的模型相当甚至更高的精度,并且参数效率更高。然而,KAN 模型的稳定性需要进一步研究,例如使用递归公式或基于残差的注意力机制。KAN 模型可以与 PINN 和 DeepONet 结合,用于解决更复杂的 SciML 问题。信息瓶颈理论可以有效地分析 KAN 的学习动态。
3.3.1
3.3.1 节分析了 cPIKAN 模型对隐藏层数量(L)和多項式階數(p)的敏感性,并探讨了这些因素如何影響模型的性能和稳定性。
实验设置:
-
问题: 求解二维亥姆霍兹方程,其中波数较大 (k = 20)。P15
-
模型: 使用 PINN 和 cPIKAN 模型,分别设置不同的 L 和 p 值。P15P17
-
训练: 使用 Adam 优化器,学习率设置为 1e-3。P15
-
评估: 使用相对误差评估模型的精度。
主要发现:
-
增加 L 或 p 会降低模型性能: 随着隐藏层数量或多项式阶数的增加,模型的相对误差(即泛化误差)会先降低,然后随着 L 或 p 的继续增加而升高。这说明模型出现了过拟合现象,即模型过度拟合了训练数据,导致泛化能力下降。P17
-
cPIKAN 模型对参数敏感: 与 PINN 模型相比,cPIKAN 模型更容易受到参数变化的影响,导致模型性能不稳定。当 L 或 p 增加到一定程度时,cPIKAN 模型的损失函数甚至会出现发散,无法进行训练。P17
-
cPIKAN(𝑅) 模型更稳定: 通过将切比雪夫多项式重新定义为递归形式,cPIKAN(𝑅) 模型有效地解决了 cPIKAN 模型的稳定性问题。即使 L 或 p 增加到较大值,cPIKAN(𝑅) 模型也能保持稳定的训练过程,并取得较好的泛化性能。P31
原因分析:
-
过拟合: 当模型参数过多时,模型能够更好地拟合训练数据,但同时也更容易过拟合,导致泛化能力下降。
-
数值不稳定性: 原始的 cPIKAN 公式使用反三角函数计算角度,当输入值接近定义域边界时,会导致数值不稳定性,进而影响模型的训练过程。P7P8P31
-
cPIKAN(𝑅) 的改进: 通过使用递归公式计算切比雪夫多项式,cPIKAN(𝑅) 模型避免了反三角函数的计算,从而提高了模型的数值稳定性。P8P31
结论:
-
cPIKAN 模型对 L 和 p 的选择比较敏感,需要仔细调整参数才能取得较好的性能。P17
-
cPIKAN(𝑅) 模型更稳定,可以容忍更大的 L 和 p 值,且泛化性能较好。P31
-
在选择 cPIKAN 模型的参数时,需要权衡模型的精度和稳定性。P17
总而言之,3.3.1 节通过实验验证了 cPIKAN 模型对参数的敏感性,并提出了 cPIKAN(𝑅) 模型来提高模型的稳定性。
3.3 节主要探讨了使用 PINN 和 cPIKAN 模型逼近二维亥姆霍兹方程解的性能,并分析了模型复杂度、计算时间和稳定性
3.4
3.4 节探讨了使用 PINN 和 cPIKAN 模型模拟不同雷诺数下顶盖驱动腔流的能力,并分析了模型对噪声数据的鲁棒性。
实验设置:
-
问题: 模拟二维稳态不可压缩纳维-斯托克斯方程,并分析不同雷诺数 (Re) 下顶盖驱动腔流。P20
-
模型: 使用 PINN 和 cPIKAN 模型,并分别设置不同的网络架构和 Re 值。P20P21
-
训练: 使用 Adam 优化器,学习率设置为 0.001。
-
评估: 使用相对误差评估模型的精度。
主要发现:
-
低雷诺数 (Re = 100):
-
HNN 和 HcKAN 模型都能够有效地预测状态空间,并显示出良好的外推能力。P12
-
HNN 模型的训练和测试损失曲线收敛良好,表明模型能够有效地学习数据中的模式。P12
-
HcKAN 模型的训练过程不稳定,损失函数发散,需要修改网络架构和使用更浅的网络才能实现稳定训练。P12
-
HNN 和 HcKAN 模型的执行时间相近。
-
HNN 指的是 哈密顿神经网络 (Hamiltonian Neural Network)。它是一种特殊的神经网络,专门用于模拟和预测哈密顿动力系统的行为。
HNN 的工作原理:
-
哈密顿量: HNN 将哈密顿量(描述系统总能量的函数)作为输入,并学习预测系统状态随时间的变化。P10
-
状态空间: HNN 的输出是系统的状态空间,包括位置和动量等信息。P10P11
-
结构保持: HNN 旨在学习结构保持的动力系统,这意味着它能够有效地模拟系统的长期行为,并保持系统的物理特性,例如能量守恒。P10
-
HNN 的优势:
-
预测能力: HNN 能够有效地预测动力系统的未来状态,即使是在高维和复杂的情况下。P10P11P12
-
结构保持: HNN 能够学习结构保持的动力系统,这意味着它能够有效地模拟系统的长期行为,并保持系统的物理特性。P10
-
泛化能力: HNN 具有良好的泛化能力,能够将学习到的知识应用于未见过的数据。P12
-
物理系统模拟: HNN 可以用于模拟各种物理系统,例如机械系统、流体动力学系统、量子力学系统等。
-
天气预报: HNN 可以用于预测天气变化,例如温度、湿度、风速等。
-
金融市场预测: HNN 可以用于预测金融市场变化,例如股票价格、汇率等。
-
HNN 与其他神经网络模型相比:
-
传统神经网络: 传统神经网络通常无法有效地模拟结构保持的动力系统,并且容易出现过拟合问题。
-
PINNs: PINNs 可以用于解决偏微分方程 (PDEs),但它们通常需要大量的训练数据和计算资源。
-
总而言之,HNN 是一种强大的神经网络模型,能够有效地模拟和预测结构保持的动力系统的行为。它在各种领域具有广泛的应用潜力。
HNN 的应用:
-
-
-
HNN 模型能够准确地预测状态空间,并显示出良好的外推能力。P12
-
HNN 模型的训练和测试损失曲线收敛良好,表明模型能够有效地学习数据中的模式。P12
-
HcKAN 模型的训练过程不稳定,损失函数发散,即使减少参数数量也无法缓解问题。P12
-
使用更多训练数据可以显著降低 HcKAN 模型的泛化误差。P12
-
HNN 和 HcKAN 模型的执行时间相近。
-
高雷诺数 (Re = 10,000):
-
-
RBA 技术的影响:
- RBA 技术可以加速 HNN 和 HcKAN 模型的收敛速度,并提高模型的精度。P15
-
EVM 技术的影响:
- EVM 技术可以解决 HcKAN 模型在高雷诺数流动训练中的不稳定问题,并恢复正确的训练轨迹。P21
原因分析:
-
HNN 的优势: HNN 模型通过将哈密顿量纳入训练过程,能够有效地学习结构保持动力系统,并具有良好的外推能力。P10P12
-
HcKAN 的劣势: HcKAN 模型的训练过程不稳定,可能是由于切比雪夫多项式的计算涉及反三角函数,当输入值接近定义域边界时,会导致数值不稳定性。P12
-
RBA 的优势: RBA 技术可以动态地调整损失函数的权重,使模型能够更有效地学习数据中的模式。P15
-
EVM 的优势: EVM 技术可以增加数值稳定性,并帮助模型学习更复杂的流场结构。P21
结论:
-
HNN 模型在模拟不同雷诺数下顶盖驱动腔流方面表现出良好的性能,并具有良好的鲁棒性。P12P21
-
HcKAN 模型在高雷诺数流动模拟中容易出现不稳定问题,需要使用更浅的网络架构和 EVM 技术来提高稳定性。P12P21
-
RBA 技术可以加速 HNN 和 HcKAN 模型的收敛速度,并提高模型的精度。P15P21
-
EVM 技术可以解决 HcKAN 模型在高雷诺数流动训练中的不稳定问题,并恢复正确的训练轨迹。P21
总而言之,3.4 节通过实验验证了 HNN 和 HcKAN 模型在模拟不同雷诺数下顶盖驱动腔流方面的性能,并分析了 RBA 和 EVM 技术对模型性能的影响。
3.5
3.5 节研究了使用 PIKAN、cPIKAN、带有 RBA 的 cPIKAN 以及带有 RBA 的 PINN 求解二维非线性艾伦-卡恩方程的有效性。
艾伦-卡恩方程:
-
方程描述了具有非线性反应项和扩散项的偏微分方程。
-
目标是在给定初始条件和边界条件的情况下,找到方程的解。
实验设置:
-
模型: 使用 PINN、cPIKAN、带有 RBA 的 cPIKAN 以及带有 RBA 的 PINN 模型求解方程。
-
网络架构:
-
PINN 和 cPIKAN 使用相同的网络架构,包含 2 个隐藏层,每层 64 个神经元。
-
RBA 权重用于平衡每个损失项内的局部贡献,并动态地调整损失函数的权重。
-
-
训练: 使用 Adam 优化器,学习率设置为 1e-4。
-
评估: 使用相对误差评估模型的精度。
主要发现:
-
PINN 性能: PINN 方法得到的解没有收敛到参考解,相对误差较大 (15.93%)。
-
cPIKAN 和带有 RBA 的 cPIKAN 性能: cPIKAN 和带有 RBA 的 cPIKAN 得到的解精度相当,相对误差分别为 3.69% 和 3.68%。
-
RBA 的影响: RBA 技术可以加速 cPIKAN 的收敛速度,并提高模型的精度。
-
训练时间: cPIKAN 和带有 RBA 的 cPIKAN 的训练时间相近,比 PINN 稍长。
原因分析:
-
PINN 的局限性: PINN 方法可能无法有效地学习艾伦-卡恩方程中的非线性关系,导致模型精度较低。
-
cPIKAN 的优势: cPIKAN 模型使用切比雪夫多项式作为激活函数,可以更好地逼近非线性函数,从而提高模型的精度。
-
RBA 的优势: RBA 技术可以动态地调整损失函数的权重,使模型能够更有效地学习数据中的模式,从而提高模型的精度。
结论:
-
cPIKAN 和带有 RBA 的 cPIKAN 在求解二维非线性艾伦-卡恩方程方面表现出比 PINN 更好的性能。
-
RBA 技术可以有效地提高 cPIKAN 的精度和收敛速度。
-
cPIKAN 和带有 RBA 的 cPIKAN 是求解二维非线性艾伦-卡恩方程的有效工具。
总而言之,3.5 节通过实验验证了 cPIKAN 和带有 RBA 的 cPIKAN 在求解二维非线性艾伦-卡恩方程方面的有效性,并分析了 RBA 技术对模型性能的影响
3.6
3.6 节探讨了将贝叶斯框架与 cPIKAN 结合,构建贝叶斯 cPIKAN (B-cPIKAN) 来解决含噪声数据的 PDE 反问题,并进行不确定性量化 (UQ)。
实验设置:
-
问题: 求解具有噪声数据的一维稳态反应-扩散方程,并推断扩散率和反应率,同时给出不确定性。P24P25
-
方程:
-
稳态反应-扩散方程:
-
边界条件:
-
初始条件:
-
-
方法:
-
使用 B-cPIKAN 和 B-PINN 方法求解反问题。P25
-
使用哈密顿蒙特卡罗 (HMC) 方法估计模型参数的后验分布。P24
-
-
数据:
-
通过解析方法生成精确解,并添加高斯噪声。P24P25
-
从解和源项中分别采样测量值,并添加噪声。P24
-
-
模型:
-
B-cPIKAN: 网络架构为 3-32-32-1,切比雪夫多项式阶数为 3。P25
-
B-PINN: 网络架构为 4-64-64-2,使用 MLP 作为网络模型。P25
-
两种方法的参数数量大致相同。P25
-
-
训练:
-
使用自适应 HMC 进行训练。P25
-
预热样本数设置为 2000,后验样本数设置为 1000。P25
-
主要发现:
-
B-cPIKAN 和 B-PINN 都能够有效地推断扩散率和反应率,并给出不确定性。P25
-
由于测量数据的缺乏,两种方法对反应率的预测不确定性在 x = 1 附近增大。P25
-
B-cPIKAN 方法在推断时能够提供稍好的结果,误差更小,并且不确定性能够界定误差。P25
-
然而,B-cPIKAN 的计算成本更高。P25
原因分析:
-
贝叶斯框架的优势: 贝叶斯框架能够考虑模型参数的不确定性,并给出更全面的推断结果。
-
cPIKAN 的优势: cPIKAN 模型使用切比雪夫多项式作为激活函数,可以更好地逼近非线性函数,从而提高模型的精度。
-
计算成本: B-cPIKAN 的计算成本更高,主要是因为 HMC 方法需要进行大量的采样计算。
结论:
主要发现:
原因分析:
结论:
总而言之,3.6 节通过实验验证了 B-cPIKAN 在解决含噪声数据 PDE 反问题并进行不确定性量化方面的有效性,并分析了其优缺点
-
B-cPIKAN 和 B-PINN 都是解决含噪声数据 PDE 反问题并进行不确定性量化的有效方法。P25
-
B-cPIKAN 方法在精度和不确定性量化方面稍占优势,但计算成本更高。P25
-
未来需要进一步研究,以降低 B-cPIKAN 的计算成本,并探索其在更复杂的 PDE 问题中的应用。
-
3.6 节研究了使用贝叶斯框架与 cPIKAN 结合构建的贝叶斯 cPIKAN (B-cPIKAN) 模型,在解决含噪声数据的 PDE 反问题并进行不确定性量化 (UQ) 方面的有效性。
实验设置:
-
问题: 求解具有噪声数据的一维稳态反应-扩散方程,并推断扩散率和反应率,同时给出不确定性。P24
-
方程:
-
稳态反应-扩散方程:P24
-
边界条件:
-
初始条件:
-
-
方法:
-
使用 B-cPIKAN 和 B-PINN 方法求解反问题。P24
-
使用哈密顿蒙特卡罗 (HMC) 方法估计模型参数的后验分布。P24
-
-
数据:
-
通过解析方法生成精确解,并添加高斯噪声。P24
-
从解和源项中分别采样测量值,并添加噪声。P24
-
-
模型:
-
B-cPIKAN: 网络架构为 3-32-32-1,切比雪夫多项式阶数为 3。P25
-
B-PINN: 网络架构为 4-64-64-2,使用 MLP 作为网络模型。P25
-
两种方法的参数数量大致相同。P25
-
-
训练:
-
使用自适应 HMC 进行训练。P24
-
预热样本数设置为 2000,后验样本数设置为 1000。P25
-
-
B-cPIKAN 和 B-PINN 都能够有效地推断扩散率和反应率,并给出不确定性。P25
-
贝叶斯框架的优势: 贝叶斯框架能够考虑模型参数的不确定性,并给出更全面的推断结果。
-
cPIKAN 的优势: cPIKAN 模型使用切比雪夫多项式作为激活函数,可以更好地逼近非线性函数,从而提高模型的精度。
-
计算成本: B-cPIKAN 的计算成本更高,主要是因为 HMC 方法需要进行大量的采样计算。
-
B-cPIKAN 和 B-PINN 都是解决含噪声数据 PDE 反问题并进行不确定性量化的有效方法。P25
-
B-cPIKAN 方法在精度和不确定性量化方面稍占优势,但计算成本更高。P25
-
未来需要进一步研究,以降低 B-cPIKAN 的计算成本,并探索其在更复杂的 PDE 问题中的应用。
-
由于测量数据的缺乏,两种方法对反应率的预测不确定性在 x = 1 附近增大。P25
-
B-cPIKAN 方法在推断时能够提供稍好的结果,误差更小,并且不确定性能够界定误差。P25
-
然而,B-cPIKAN 的计算成本更高。P25
-
3.7
-
3.7 节探讨了使用算子网络学习一维伯格斯方程解算子的能力,并比较了深度算子网络 (DeepONet) 和两种 DeepOKAN 模型的性能。
实验设置:
-
问题: 学习将初始条件映射到方程解的代理算子。P27
-
方程:
-
一维伯格斯方程:P27
-
周期边界条件。P27
-
-
方法:
- 使用 DeepONet 和两种 DeepOKAN 模型学习解算子。P27
-
数据:
-
训练数据:1000 个初始条件,从定义为 的高斯过程中采样,并嵌入周期边界条件。P27
-
测试数据:200 个初始条件。P27
-
-
模型:
-
DeepONet:
-
分支网络架构:4 层,每层 16 个神经元,使用 tanh 激活函数。P27
-
主干网络架构:4 层,每层 16 个神经元,使用 tanh 激活函数。P27
-
-
DeepOKAN 1:
-
分支网络架构:3 层,每层 8 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
主干网络架构:3 层,每层 8 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
-
DeepOKAN 2:
-
分支网络架构:4 层,每层 16 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
主干网络架构:4 层,每层 16 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
-
-
训练:
-
使用 Adam 优化器。P27
-
DeepONet 的学习率:
-
前 100,000 次迭代:1e-3P27P28
-
后 100,000 次迭代:1e-4P27P28
-
-
DeepOKAN 的学习率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
避免过拟合:
-
DeepONet 和 DeepOKAN 1:权重系数为 0.001 的 L2 正则化器。P28
-
DeepOKAN 2:权重系数为 0.001 的 L2 正则化器。
-
-
3.7 节探讨了使用算子网络学习一维伯格斯方程解算子的能力,并比较了深度算子网络 (DeepONet) 和两种 DeepOKAN 模型的性能。
实验设置:
问题: 学习将初始条件映射到方程解的代理算子。P27
方程:
-
一维伯格斯方程:P27
-
周期边界条件。P27
方法:
- 使用 DeepONet 和两种 DeepOKAN 模型学习解算子。P27
数据:
-
训练数据:1000 个初始条件,从定义为 的高斯过程中采样,并嵌入周期边界条件。P27
-
测试数据:200 个初始条件。P27
模型:
-
DeepONet:
-
分支网络架构:4 层,每层 16 个神经元,使用 tanh 激活函数。P27
-
主干网络架构:4 层,每层 16 个神经元,使用 tanh 激活函数。P27
-
-
DeepOKAN 1:
-
分支网络架构:3 层,每层 8 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
主干网络架构:3 层,每层 8 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
-
DeepOKAN 2:
-
分支网络架构:4 层,每层 16 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
主干网络架构:4 层,每层 16 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P27
-
训练:
-
使用 Adam 优化器。P27
-
DeepONet 的学习率:
-
前 100,000 次迭代:1e-3P27P28
-
后 100,000 次迭代:1e-4P27P28
-
-
DeepOKAN 的学习率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
避免过拟合:
-
DeepONet 和 DeepOKAN 1:权重系数为 0.001 的 L2 正则化器。P28
-
DeepOKAN 2:权重系数为 0.001 的 L2 正则化器。
-
主要发现:
-
总而言之,3.7 节通过实验验证了 DeepOKANs 在学习一维伯格斯方程解算子方面的有效性,并分析了其优势和应用潜力。
结论:
-
DeepOKANs 是学习一维伯格斯方程解算子的有效工具,并具有良好的鲁棒性。P28
-
DeepOKANs 的计算成本高于 DeepONet,但可以提供更高的精度和鲁棒性。P28
-
DeepOKANs 可以应用于更复杂的算子学习问题,例如高维 PDEs 和非线性算子。
-
原因分析:
-
DeepOKANs 的优势: DeepOKANs 使用切比雪夫 KAN 作为网络模型,可以更好地逼近非线性函数,从而提高模型的精度和鲁棒性。P28
-
DeepONet 的局限性: DeepONet 使用 MLP 作为网络模型,可能无法有效地学习伯格斯方程解算子中的非线性关系,导致模型精度较低。
-
DeepOKANs 的鲁棒性: DeepOKANs 对噪声输入函数的鲁棒性明显优于 DeepONet。P28
-
DeepOKANs 的性能: DeepOKANs 在学习伯格斯方程解算子方面表现出比 DeepONet 更高的精度,但计算成本也更高。P28
3.8
3.8 节探讨了使用算子网络学习二维稳态渗流问题解算子的能力,并比较了深度算子网络 (DeepONet) 和 DeepOKAN 模型的性能。
实验设置:
-
问题: 学习将水力传导率场映射到水头分布的代理算子。P28
-
方程:
-
稳态达西方程:P28
-
边界条件:P28
-
-
方法:
- 使用 DeepONet 和 DeepOKAN 模型学习解算子。P28
-
数据:
-
训练数据:10,000 个水力传导率场和水头分布配对数据,从截断 Karhunen-Loève 展开中采样。P28
-
测试数据:1000 个水力传导率场和水头分布配对数据。P28
-
-
模型:
-
DeepONet:
-
分支网络架构:4 层,每层 32 个神经元,使用 tanh 激活函数。P28
-
主干网络架构:4 层,每层 32 个神经元,使用 tanh 激活函数。P28
-
-
DeepOKAN:
-
分支网络架构:4 层,每层 32 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P28
-
主干网络架构:4 层,每层 32 个神经元,基于切比雪夫 KAN,切比雪夫多项式阶数为 3。P28
-
-
-
训练:
-
使用 Adam 优化器。P28
-
DeepONet 的学习率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
DeepOKAN 的学习率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
DeepOKAN 使用权重系数为 0.001 的 L2 正则化器以避免过拟合。P28
-
主要发现:
-
DeepONet 的性能: DeepONet 在学习二维稳态渗流问题解算子方面表现出比 DeepOKAN 更高的精度,并且计算成本更低。P28
-
DeepOKAN 的鲁棒性: DeepOKAN 对噪声输入函数的鲁棒性明显优于 DeepONet,并且随着噪声水平的增加,DeepOKAN 的准确性变得更好。P29
原因分析:
-
DeepONet 的优势: DeepONet 使用 MLP 作为网络模型,能够有效地学习数据中的非线性关系,并且在训练过程中表现出更高的稳定性。
-
DeepOKAN 的优势: DeepOKAN 使用切比雪夫 KAN 作为网络模型,可以更好地逼近非线性函数,并且对噪声输入函数更具鲁棒性。
结论:
-
DeepONet 和 DeepOKAN 都是学习二维稳态渗流问题解算子的有效工具,但 DeepONet 在精度和计算效率方面更优,而 DeepOKAN 在鲁棒性方面更优。
-
DeepOKAN 可以应用于更复杂的算子学习问题,例如高维 PDEs 和非线性算子,尤其是在需要处理噪声数据的情况下。
总而言之,3.8 节通过实验验证了 DeepOKAN 在学习二维稳态渗流问题解算子方面的有效性,并分析了其优势和应用潜力。