当前位置：首页 > article >正文

Chebykan wx 文章阅读

article 2025/3/12 16:23:03

文献筛选

[1] 神经网络：全面基础
[2] 通过sigmoid函数的超层叠近似
[3] 多层前馈网络是通用近似器
[5] 注意力是你所需要的
[6] 深度残差学习用于图像识别
[7] 视觉化神经网络的损失景观
[8] 牙齿模具点云补全通过数据增强和混合RL-GAN
[9] 强化学习：一项调查
~~[10] 使用PySR和SymbolicRegression.jl的科学可解释机器学习~~

[11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, "KAN：科尔莫戈罗夫-阿诺德网络"，2024年，arXiv预印本 arXiv:2404.19756。
[12] D.A. Sprecher, S. Draghici, "空间填充曲线和基于科尔莫戈罗夫超层叠的神经网络"，《神经网络》15卷1期（2002年）57-67页。
[13] M. Köppen, "关于科尔莫戈罗夫网络的训练"，收录于《人工神经网络—ICANN 2002：国际会议马德里，西班牙，2002年8月28-30日论文集》12卷，Springer出版社，2002年，474-479页。
[14] J. Schmidhuber, "发现具有低科尔莫戈罗夫复杂性和高泛化能力的神经网络"，《神经网络》10卷5期（1997年）857-873页。
[15] M.-J. Lai, Z. Shen, "科尔莫戈罗夫超层叠定理可以在近似高维函数时打破维度诅咒"，2021年，arXiv预印本 arXiv:2112.09963。
[16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, "用于图像处理的科尔莫戈罗夫样条网络"，收录于《图像处理：概念、方法、工具与应用》，IGI Global出版社，2013年，54-78页。
[17] J. He, "关于ReLU DNNs的最优表达能力和其在科尔莫戈罗夫超层叠定理中的应用"，2023年，arXiv预印本 arXiv:2308.05509。
[18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, "自适应激活函数加速深度和物理信息神经网络的收敛"，《计算物理》404卷（2020年）109136。
[19] S. Guarnieri, F. Piazza, A. Uncini, "具有自适应样条激活函数的多层前馈网络"，《IEEE神经网络交易》10卷3期（1999年）672-683页。
[20] D. Fakhoury, E. Fakhoury, H. Speleers, "ExSpliNet：一个可解释且表现力强的基于样条的神经网络"，《神经网络》152卷（2022年）332-346页。

[21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, "用于时间序列分析的科尔莫戈罗夫-阿诺德网络（KANs）"，2024年，arXiv预印本 arXiv:2405.08790。
[22] M.E. Samadi, Y. Müller, A. Schuppert, "平滑科尔莫戈罗夫阿诺德网络，实现结构知识表示"，2024年，arXiv预印本 arXiv:2405.11318。
[23] Z. Li, "科尔莫戈罗夫-阿诺德网络是径向基函数网络"，2024年，arXiv预印本 arXiv:2405.06721。
[24] Z. Bozorgasl, H. Chen, "Wav-KAN：小波科尔莫戈罗夫-阿诺德网络"，2024年，arXiv预印本 arXiv:2405.12832。
[26] SynodicMonth, "ChebyKAN"，2024年，https://github.com/SynodicMonth/ChebyKAN/。
[27] S. SS, "基于切比雪夫多项式的科尔莫戈罗夫-阿诺德网络：非线性函数近似的有效架构"，2024年，arXiv预印本 arXiv:2405.07200。【本文？】
[28] S.S. Bhattacharjee, "TorchKAN：简化KAN模型及其变体"，2024年，https://github.com/1ssb/torchkan/。
[29] M. Raissi, P. Perdikaris, G.E. Karniadakis, "物理信息神经网络：解决涉及非线性偏微分方程的正问题和反问题的深度学习框架"，《计算物理》378卷（2019年）686-707页。
[30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, "DeepOKAN：基于科尔莫戈罗夫-阿诺德网络的深度运算网络，用于力学问题"，2024年，arXiv预印本 arXiv:2405.19143。

[31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, "物理信息机器学习"，《自然综述：物理学》3卷6期（2021年）422-440页。
[32] L.D. McClenny, U.M. Braga-Neto, "自适应性物理信息神经网络"，《计算物理》474卷（2023年）111722页。
[33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, "物理信息神经网络推断的纳维-斯托克斯解的多重性及数据和涡粘性的影响"，2023年，arXiv预印本 arXiv:2309.06010。
[34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, "基于运算符的通用逼近定理的DeepONet学习非线性运算符"，《自然：机器智能》3卷3期（2021年）218-229页。
[35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, "物理信息神经网络非自适应和基于残差的自适应采样的综合研究"，《计算力学应用力学工程》403卷（2023年）115671页。
[36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "PINNs中的学习：相变、总扩散和泛化"，2024年，arXiv预印本 arXiv:2403.18494。
[37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne 等，"科学数据管理和监护的FAIR指导原则"，《科学数据》3卷1期（2016年）1-9页。
[38] N. Tishby, F.C. Pereira, W. Bialek, "信息瓶颈方法"，2000年，arXiv预印本 physics/0004057。
[39] N. Tishby, N. Zaslavsky, "深度学习与信息瓶颈原理"，收录于2015 IEEE信息论研讨会（ITW），IEEE，2015年，第1-5页。
[40] R. Shwartz-Ziv, N. Tishby, "通过信息打开深度神经网络的黑箱"，2017年，arXiv预印本 arXiv:1703.00810。
[41] Z. Goldfeld, Y. Polyanskiy, "信息瓶颈问题及其在机器学习中的应用"，《IEEE选择领域信息论杂志》1卷1期（2020年）19-38页。
[42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, "科学机器学习中的不确定性量化：方法、指标和比较"，《计算物理》477卷（2023年）111902页。
[43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, "用于流体力学的物理信息神经网络（PINNs）：综述"，《力学学报》37卷12期（2021年）1727-1738页。
[44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, "用于高速流动的物理信息神经网络"，《计算力学应用力学工程》360卷（2020年）112789页。
[45] L. Yang, X. Meng, G.E. Karniadakis, "B-PINNs：贝叶斯物理信息神经网络，用于带噪声数据的前向和反问题"，《计算物理》425卷（2021年）109913页。
[46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, "PPINN：用于时变偏微分方程的并行物理信息神经网络"，《计算力学应用力学工程》370卷（2020年）113250页。
[47] Z. Zou, G.E. Karniadakis, "L-HYDRA：多头物理信息神经网络"，2023年，arXiv预印本 arXiv:2301.02152。
[48] Z. Zou, X. Meng, G.E. Karniadakis, "在物理信息神经网络（PINNs）中纠正模型误指定"，《计算物理》期刊。

[49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, "通过结合物理信息神经网络与符号回归发现阿尔茨海默病的反应-扩散模型"，《计算力学应用力学工程》419卷（2024年）116647页。
[50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用多时间哈密顿-雅可比偏微分方程解决某些科学机器学习问题"，《SIAM科学计算杂志》46卷2期（2024年）C216–C248页。
[51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, "利用具有时间依赖哈密顿量的哈密顿-雅可比偏微分方程进行连续科学机器学习"，收录于《第六届动态与控制学习年度会议》，PMLR，2024年，第1–12页。
[52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, "用于参数化偏微分方程的傅里叶神经运算符"，2020年，arXiv预印本 arXiv:2010.08895。
[53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, "用于超声无损量化表面裂纹的物理信息神经网络"，《无损评价杂志》39卷（2020年）1–20页。
[54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, "利用超声数据通过物理信息神经网络量化多晶镍的微观结构性质：解决反问题的有前景方法"，《IEEE信号处理杂志》39卷1期（2021年）68–77页。
[55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "物理信息神经网络中的基于残差的注意力"，《计算力学应用力学工程》421卷（2024年）116805页。
[56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, "基于公平数据的两种神经运算符（及其实用扩展）的全面公平比较"，《计算力学应用力学工程》393卷（2022年）114778页。
[57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, "使用基于神经运算符的快速求解器进行大规模散射"，2024年，arXiv预印本 arXiv:2405.12380。
[58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, "深度神经运算符作为形状优化的准确替代模型"，《工程应用人工智能》129卷（2024年）107615页。
[59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, "从数据和物理中学习功能先验和后验"，《计算物理》457卷（2022年）111073页。
[60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, "NeuralUQ：用于神经微分方程和运算符不确定性量化的综合库"，《SIAM评论》66卷1期（2024年）161–190页。
[61] Z. Zou, X. Meng, G.E. Karniadakis, "物理信息神经网络和神经运算符中噪声输入-输出的不确定性量化"，2023年，arXiv预印本 arXiv:2311.11262。

[62] J. Lin, "Awesome-KAN"，2024年，网址：https://github.com/SpaceLearner/JacobiKAN/.
[63] G. Karniadakis, S. Sherwin, 《计算流体动力学的谱/hp元素方法》，第二版，牛津大学出版社，牛津，英国，2005年。
[64] B. Ter-Avanesov, "Awesome-KAN"，2024年，网址：https://github.com/Boris-73-TA/OrthogPolyKANs/.
[65] G. Karniadakis, S.J. Sherwin, 《计算流体动力学的谱/hp元素方法》，牛津大学出版社，美国，2005年。
[66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, "关于神经网络的谱偏倚"，收录于：国际机器学习会议，PMLR，2019年，第5301–5310页。
[67] S. Greydanus, M. Dzamba, J. Yosinski, "哈密顿神经网络"，《神经信息处理系统进展》32卷（2019年）。
[68] A. Garg, S.S. Kagi, "哈密顿神经网络"，2019年。
[69] D.P. Kingma, J. Ba, "Adam：一种随机优化方法"，2014年，arXiv预印本 arXiv:1412.6980。
[70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, "特征物理信息神经网络的潜在失败模式"，《神经信息处理系统进展》34卷（2021年）26548–26560页。
[71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, "用于不可压缩流的人工粘性增强物理信息神经网络"，《应用数学与力学》44卷7期（2023年）1101–1110页。
[72] J.-L. Guermond, R. Pasquetti, B. Popov, "非线性守恒律的熵粘性方法"，《计算物理》230卷11期（2011年）4248–4267页。
[73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, "柔性管道中湍流流动的熵粘性大涡模拟研究"，《流体力学杂志》859卷（2019年）691–730页。
[74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, "NSFnets（纳维-斯托克斯流网）：用于不可压缩纳维-斯托克斯方程的物理信息神经网络"，《计算物理》426卷（2021年）109951页。
[75] S.M. Allen, J.W. Cahn, "有序二元合金中具有第二近邻相互作用的基态结构"，《金属学报》20卷3期（1972年）423–433页。
[76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, "用于实际非线性动力系统的贝叶斯物理信息神经网络"，《计算力学应用力学工程》402卷（2022年）115346页。
[77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, "在数据稀疏情况下推断生物力学本构定律家族的生成建模框架"，《力学与物理固体杂志》181卷（2023年）105424页。
[78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, "利用粘性哈密顿-雅可比PDE进行科学机器学习中的不确定性量化"，2024年，arXiv预印本 arXiv:2404.08809。
[79] R.M. Neal, 等著，"使用哈密顿动力学的MCMC"，《马尔可夫链蒙特卡洛手册》2卷11期（2011年）2页。
[80] I. Loshchilov, F. Hutter, "解耦权重衰减正则化"，2017年，arXiv预印本 arXiv:1711.05101。
[81] T.M. Inc, "MATLAB版本：9.14.0（r2023a）"，2023年，网址：https://www.mathworks.com。
[82] R. Shwartz-Ziv, "深度神经网络中的信息流"，2022年，arXiv预印本 arXiv:2202.06749。
[83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, "基于残差的注意力及其与信息瓶颈理论的联系在物理信息神经网络中"，2023年，arXiv预印本 arXiv:2307.00379。
[84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, "通过域分解实现并行物理信息神经网络"，《计算物理》447卷（2021年）110683页。

DNN

DNN是深度神经网络（Deep Neural Network）的缩写，它是一种复杂的神经网络结构，具有多个隐藏层。深度神经网络在模式识别和机器学习领域非常流行，尤其在图像识别、语音识别和自然语言处理等任务中表现出色。

以下是DNN的一些基本特点：

多层结构：DNN由输入层、多个隐藏层和输出层组成。每一层由许多神经元（或称节点）组成，每个神经元都与前一层的所有神经元相连接。
前向传播与反向传播：在训练过程中，输入数据会通过神经网络进行前向传播，直到输出层产生结果。然后，通过反向传播算法调整网络中的权重和偏置，以减小输出结果与真实值之间的误差。
非线性激活函数：DNN通常使用非线性激活函数（如Sigmoid、ReLU或Tanh函数）来增加网络的表示能力，使得网络可以学习和模拟复杂函数。
端到端学习：DNN可以直接从原始数据中学习特征，而不需要手动特征提取，这使得它在处理复杂问题时更为有效。
强大的表达能力：由于DNN具有多层结构，它可以学习到数据的深层表示，因此在很多任务中都能达到很好的性能。
大数据需求：DNN通常需要大量的数据来训练，以便能够学习到有效的模式和特征。

随着计算能力的提升和大数据的可用性，DNN在各个领域的应用越来越广泛，对人工智能的发展起到了重要的推动作用。

原论文

【本篇详细分析了3.3部分，合格沃茨方程】

AcomprehensiveandFAIRcomparisonbetweenMLPandKAN representations for differential equations and operator networks Khemraj Shuklaa,1, Juan Diego Toscanoa,1, Zhicheng Wanga,1, Zongren Zoua,1,

、这份文档是一篇研究论文，主要探讨了使用Kolmogorov-Arnold Networks (KAN) 和 多层感知器 (MLP) 解决微分方程和算子网络问题的能力，并将其与基于 MLP 的物理信息神经网络 (PINNs) 和 深度算子网络 (DeepONets) 进行比较。

主要发现：

原始 KAN 模型 在使用 B-spline 参数化时，虽然具有一定的准确性，但效率较低，并且可能不稳定。
改进的 KAN 模型 使用低阶正交多项式作为激活函数，其性能与 PINNs 和 DeepONets 相当，但仍然缺乏鲁棒性，可能因随机种子或高阶正交多项式而发散。P1
损失函数可视化 和 信息瓶颈理论分析 表明，改进的 KAN 模型的学习动态与 PINNs 类似，都经历了拟合、扩散和总扩散三个阶段。P1P2

研究方法：

PIKAN 和 DeepOKAN：使用改进的 KAN 模型构建物理信息机器学习模型和深度算子网络，用于求解前向和逆向微分方程问题。P1P2P5
比较实验：在八个基准测试中比较了 MLP 和 KAN 模型的性能，包括：
- 不连续函数逼近P5
- 结构保持哈密顿动力学系统
- PDE 解近似
- 不确定性量化
- 算子学习
信息瓶颈理论：分析 PIKAN 和 PINNs 的学习动态，揭示其训练过程中的三个阶段。P2

研究意义：

FAIR 原则：数据和代码将公开提供，以促进 KAN 模型在科学机器学习领域的进一步发展。P2
理论分析：为 KAN 模型的收敛性和稳定性提供了理论基础。
应用潜力： KAN 模型在解决大规模 PDE、时间依赖 PDE 和算子学习问题方面具有潜在的应用价值。P22

未来研究方向：

扩展 KAN 模型在解决大规模 PDE 和时间依赖 PDE 问题中的应用。P22
研究 KAN 模型的收敛性理论。
将 DeepOKAN 模型应用于更复杂的工业问题。P22

总结：

这项研究表明，KAN 模型在解决微分方程和算子网络问题方面具有潜力，并可能成为 MLP 模型的有力替代方案。随着研究的深入，KAN 模型有望在更广泛的科学和工程领域得到应用。

实验设置：

亥姆霍兹方程： P9
- 二维亥姆霍兹方程：Δu + k^2u = q(x,y)P9
- 边界条件：u(-1,y) = u(1,y) = u(x,-1) = u(x,1) = 0P9
- 源项：q(x,y) = -a1^2π^2sin(a1πx)sin(a2πy) - a2^2π^2sin(a1πx)sin(a2πy) + ksin(a1πx)sin(a2πy)P9
- 解析解：u(x,y) = sin(a1πx)sin(a2πy)P9
PINNs和PIKANs架构：P9P10P13
- PINNs： 2层隐藏层，每层16个神经元，使用双曲正切激活函数。P13
- PIKANs： 2层隐藏层，每层8个神经元，使用五次 Chebyshev 多项式作为激活函数，k=5。P10
训练策略：
- 使用全局权重调整边界条件和 PDE 残差的贡献，w_bc = 1, w_pde = 0.01。P10
- 使用残差注意力机制 (RBA) 平衡每个损失项内的局部贡献。P10
- 使用LBFGS优化器进行训练，共1800次迭代。P10
评估指标：
- 相对 L2 错误：衡量模型预测与解析解之间的差异。
- 训练时间：衡量模型训练的效率。

实验结果：P10

参数分析：在参数匹配的情况下，cPIKAN (即物理信息 Chebyshev KAN) 优于 PINNs 和原始 PIKANs，而 PINNs + RBA 仍然是表现最好的模型。P10
计算时间分析：使用Adam优化器和无全局权重的情况下，cPIKAN + RBA 和 PINNs + RBA 表现出相似的性能，而cPIKAN(𝑅) + RBA 稍快且略好于 cPIKAN + RBA。P10
复杂性分析：对于更高波数的亥姆霍兹方程，cPIKAN + RBA 优于其他方法，实现了 0.414% 的相对 L2 错误。
敏感性分析：增加层数或多项式阶数会降低模型性能，并可能导致原始 cPIKANs 不稳定。cPIKAN(𝑅) 通过递归形式避免了这个问题，并恢复了稳定性。P11P21

结论：

cPIKANs 在求解亥姆霍兹方程方面表现出与 PINNs 相当的精度，但使用更少的网络参数。P10
RBA 机制有助于提高模型精度和训练效率。P10
cPIKAN(𝑅) 通过递归形式解决了原始 cPIKANs 的稳定性问题。P21P22

总结：

该实验表明，cPIKANs 是求解亥姆霍兹方程的有力工具，具有高精度、低参数和潜在稳定性等优点。通过进一步优化网络结构和训练策略，cPIKANs 可能在更广泛的 PDE 求解领域得到应用。

完整版实验

实验1：亥姆霍兹方程 (Helmholtz equation)

目标：比较PINNs和PIKANs在求解二维亥姆霍兹方程上的性能，并分析不同网络结构对结果的影响。
设置：
- 二维亥姆霍兹方程，解析解，边界条件，源项。P9
- PINNs：2层隐藏层，每层16个神经元，双曲正切激活函数。P13
- PIKANs：2层隐藏层，每层8个神经元，五次 Chebyshev 多项式激活函数。P10
- 训练策略：全局权重，RBA，LBFGS优化器。P10
- 评估指标：相对 L2 错误，训练时间。
- 全局权重在这里指的是用于平衡边界条件损失和PDE 残差损失之间贡献的参数。
  
  在 PDE 求解中，我们通常需要同时考虑模型的预测结果与边界条件和 PDE 本身的匹配程度。为了平衡这两部分的重要性，论文中使用了全局权重来调整它们的相对贡献。
- w_bc：调整边界条件损失在总损失函数中的权重。
- w_pde：调整 PDE 残差损失在总损失函数中的权重。
- 论文中使用了 w_bc = 1 和 w_pde = 0.01 的设置，这意味着边界条件损失比 PDE 残差损失重要。
- 不同模型和训练策略的相对 L2 和计算时间 (ms/it) 对比
- (a) 基于参数的分析：使用 LBFGS 优化器和降低 PDE 贡献的偏置损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
- (b) 基于计算时间的比较：使用 Adam 优化器和无偏损失函数求解亥姆霍兹方程 (a1 = 1, a2 = 4)
- © 基于复杂度的分析：使用 Adam 优化器和无全局权重求解更高波数的亥姆霍兹方程 (a1 = a2 = 6)。对于 cPIKAN 模型，N/A 表示“不可用”，因为在初始迭代后损失函数变为未定义。每次迭代的计算时间是在 Nvidia 的 GeForce RTX-3090 GPU 上测量的。
- 这部分实验主要比较了三种不同的设置下，PINNs 和 cPIKANs 求解亥姆霍兹方程的性能：
  
  a) 基于参数的分析:
- 目标：比较不同模型在参数匹配的情况下 (即参数数量相同) 的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：全局权重，RBA，LBFGS 优化器，1800 次迭代。
- 结果：
  - cPIKANs 优于 PINNs 和原始 PIKANs。P10
  - PINNs + RBA 是表现最好的模型。P10
- 目标：比较不同模型在相同计算时间下的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数数量大致匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：全局权重，RBA，Adam 优化器，2.0e5 次迭代。P10
- 结果：
  - cPIKAN + RBA 和 PINNs + RBA 表现相似。P10
  - cPIKAN(𝑅) + RBA 稍快且略好于 cPIKAN + RBA。P10
- c) 基于复杂度的分析:
- 目标：比较不同模型在高波数情况下 (即问题更复杂) 的性能。
- 设置：
  - PINNs 和 cPIKANs：架构参数数量大致匹配，但 cPIKANs 使用 Chebyshev 多项式激活函数，PINNs 使用双曲正切激活函数。
  - 训练策略：无全局权重，RBA，Adam 优化器，5.0e5 次迭代。P10
- 结果：
  - cPIKAN + RBA 优于其他方法，实现了 0.414% 的相对 L2 错误。
- b) 基于计算时间的比较:
结果：
- 参数分析：cPIKAN 优于 PINNs 和原始 PIKANs，PINNs + RBA 表现最好。P10
- 计算时间分析：cPIKAN + RBA 和 PINNs + RBA 性能相似，cPIKAN(𝑅) + RBA 更快且略好。P10
- 复杂性分析：cPIKAN + RBA 优于其他方法。
- 敏感性分析：增加层数或多项式阶数会降低性能并可能导致不稳定性，cPIKAN(𝑅) 解决了这个问题。P11P21
- 基于参数的分析。我们定义了合适的架构，以大约匹配所有模型之间的参数数量。PINN 有两个隐藏层，每层16个神经元，cPIKAN（即物理信息化的Chebyshev KAN）有两个隐藏层，每层8个神经元，且 k=5，PIKAN（即物理信息化的KAN）有一个隐藏层，每层10个神经元，且 k=g=5。此外，如[11]所述，我们探索了PIKAN的多网格方法；对于这种情况，我们设置 k=3，初始化 g=5，并将训练过程分为三个阶段，每600次迭代将网格点数量加倍。我们通过在51×51个均匀分布的配点上的1800次LBFGS迭代来最小化方程(19)来训练我们的模型。遵循[11]，我们设置 w_bc=1 和 w_pde=0.01，这诱导了一个偏置的损失函数，该函数降低了PDE的贡献。这个损失函数使我们能够使用二阶优化器直接在少量迭代中训练参数较少的模型。我们将RBA权重初始化为1（即 α_i=α_j=1），并如方程(3)所述，使用 η*=1e-4 更新它们。我们根据每次迭代的相对L2误差和训练时间（以毫秒为单位）来评估模型性能。带有RBA的cPIKAN（cPIKAN+RBA）实现了0.354%的相对L2误差，其预测和相应的点对点误差如图9(a)所示。其余方法的结果详细列于表3(a)中，图10(a)显示了它们的相应相对L2误差收敛情况。由于PIKAN无法从GPU并行化中受益，因此它比其他模型慢得多；然而，其性能优于普通的PINN。多网格PIKAN比PIKAN快（即三个阶段的平均值），并且优于cPIKAN。但是，值得注意的是，在最后一个阶段，参数数量是其他模型的两倍。对于这个例子，cPIKAN优于PINN和普通PIKAN，最佳性能的模型是PINN+RBA。然而，注意到cPIKAN+RBA的最终相对L2误差是可比较的。
- 基于计算时间分析。在本节中，我们分析了更深层网络（即四个隐藏层）和更多配点（即100×100均匀网格）的PINN和cPIKAN模型。我们通过大致匹配PINN和cPIKAN的计算时间来定义每层神经元的数量。
  - 具体来说，PINN、cPIKAN和cPIKAN(R)的隐藏层分别使用100、32和32个神经元。我们使用 w_bc=w_pde=1 来训练我们的模型，这诱导了一个类似于实际应用的无偏损失函数。为了平衡每个损失项的贡献，我们只在PDE残差上使用RBA，将它们初始化为零（即 α_j=0），并如方程(3)所述，使用 η*=1e-3 互动更新它们。遵循这种方法，RBA作为全局和局部权重，修改每个训练点的贡献，并平均平衡每个损失项。我们使用Adam优化器[69]和学习率调度器（从5e-4到5e-5）进行2.0e5次全批量迭代来训练我们的模型。如表3(b)所示，PINN+RBA和cPIKAN+RBA显示出相似的性能。图10(b)显示，将我们的基本模型与RBA结合可以加速它们的相对L2收敛。此外，注意到我们提出的cPIKAN(R)+RBA稍快并且优于cPIKAN+RBA。然而，它们的相对L2收敛（图10(b)）是可比较的，表明这两个模型是同源的。
    “Downscales” 是一个动词，通常用来描述减少规模、重要性、程度或者数量等的过程。在具体的上下文中，“downscales” 可以有不同的含义，以下是一些例子：
  - 在图像处理中，“downscale” 通常指的是降低图像的分辨率，也就是减少图像的尺寸，这通常通过缩小图像的宽度和高度来实现。
  - 在气候模型或地理信息系统（GIS）中，“downscale” 可能指的是将大范围的气候数据或地图信息转换为更小范围或更高分辨率的数据。
  - 在经济学中，“downscale” 可能指的是减少企业的规模或运营水平。
  - 在机器学习和深度学习中，如之前提到的句子，“downscale” 可以指的是减少某个特定损失项在总损失函数中的权重，从而降低它对模型训练过程的影响。
  - 在您的上下文中，“downscales the PDE contribution” 指的是在损失函数中减少偏微分方程（PDE）项的权重，使得这部分对总损失的贡献减少。这样做可能是为了平衡不同损失项之间的比重，或者是为了达到上述提到的其他目的。
    
    这段话描述的是在训练一个模型时的具体步骤和参数设置，下面是对每个部分的详细解释：
    - 基于复杂性的分析。为了增加问题的复杂性，我们求解具有更高波数的亥姆霍兹方程（即 a1 = a2 = 6）。这一修改在偏微分方程残差中诱导了更陡峭的梯度，使得神经网络难以近似。对于PINN，我们使用每层128个神经元的六层隐藏层，而对于cPIKAN和cPIKAN®，我们使用五层、每层32个神经元，以及 k = 5。与前面的情况一样，我们使用无偏损失函数（wbc = wpde = 1）训练我们的模型，并且仅在残差中使用RBA（从零开始），使用 η* = 1e-3。我们使用Adam优化器更新网络参数，进行5e5次全批量迭代，学习率从5e-4降至5e-5。在这种情况下，使用更高的学习率会在cPIKAN模型中引起不稳定性。
      
      最佳表现模型的预测及其对应的点对点误差如图9（b）所示。表3（c）显示，cPIKAN+RBA优于其他方法，实现了0.414%的相对L2误差。然而请注意，cPIKAN®+RBA的性能和收敛历史（见图10©）与其他方法是相当的。
      
      在上述引用的对话内容中，“并且仅在残差中使用RBA（从零开始）” 这句话的意思是指，在训练神经网络模型时，仅在对偏微分方程（PDE）的残差进行优化时应用了残差平衡算法（Residual Balancing Algorithm，简称RBA）。这里的“从零开始”意味着在训练过程的初始阶段，RBA的调整是从零或者初始状态开始的。
      
      具体来说，这里的几个关键点解释如下：
    - 残差：在神经网络求解PDE的过程中，残差是指PDE的实际解与神经网络预测解之间的差异。
    - RBA（残差平衡算法）：这是一种用于改善神经网络求解PDE的方法，它通过调整残差项来提高模型的训练效率和精度。
    - 综上所述，这句话描述的是在模型训练中，如何特别地处理和优化PDE残差的部分，以提高模型对PDE解的近似能力。
    - 仅在残差中使用RBA：这意味着RBA只被应用于优化残差部分，而不是整个损失函数。损失函数通常由多个部分组成，比如数据拟合项、正则化项等，而在这里RBA只影响残差部分。
    - 从零开始：这表明在训练开始时，RBA的调整是初始的，没有预先设定的权重或者调整量，而是随着训练过程的进行逐渐调整。
  - Unbiased Loss Function:
    - 𝑤𝑏𝑐 = 𝑤𝑝𝑑𝑒 = 1 表示在损失函数中，不同部分的权重是相等的。这里的 𝑤𝑏𝑐 和 𝑤𝑝𝑑𝑒 可能分别代表损失函数中的边界条件项和数据拟合项的权重。将它们都设置为1意味着这两部分在损失函数中的贡献是相同的，没有对任何一部分进行加权，因此称为“无偏”的损失函数。
  - Apply RBA (initiated at zero):
    - RBA (Residual Balancing Algorithm): 这是一种技术，用于在训练过程中调整残差项，以提高模型对偏微分方程（PDE）解的准确性。残差是指PDE的实际解与模型预测解之间的差异。
    - Initiated at zero: 这意味着在开始训练时，RBA的调整是从零开始的，没有预先的调整或者权重，随着训练的进行，RBA会逐渐对残差项进行优化。
  - 综合以上解释，这段话的意思是：在训练模型时，使用了一个无偏的损失函数，其中边界条件项和数据拟合项的权重都是1。同时，只在损失函数的残差部分应用了从零开始的RBA，并且设置RBA的调整率为0.001，以优化模型对PDE解的近似。这样的设置旨在平衡损失函数的不同部分，并专注于提高模型在满足PDE残差方面的性能。
  - Only in the residuals:
    - 这表明RBA只应用于损失函数中的残差部分。换句话说，RBA不会影响损失函数中的其他部分，如数据拟合项或正则化项，它只专注于优化由PDE导出的残差。
  - Using 𝜂∗ = 1𝑒−3:
    - 𝜂∗ 是RBA中的一个参数，通常称为学习率或者调整率，它控制了RBA对残差项进行调整的幅度。
    - 1𝑒−3 表示这个参数的值是0.001（科学记数法表示）。这个值是比较小的，意味着RBA对残差的调整是非常精细的，以避免在训练过程中产生过大的波动。
    - 再次问：
    - “Initiated at zero” 确实指的是初值为零。在这个上下文中，它意味着在开始应用 RBA（Residual Balancing Algorithm）时，其调整参数的初始值被设置为零。这通常指的是开始时不对残差进行任何额外的加权，随着训练的进行，这个值会根据算法的需要进行调整。
      
      所以，更准确的解释应该是：
    - “Initiated at zero”: 在应用 RBA 时，其调整参数的初始值设为零。这意味着在训练的初始阶段，RBA 对残差的影响是最小的或者没有影响，随后这个值会根据残差的实际情况进行更新。
    - 因此，整段话的意思是：
    - 我们使用无偏的损失函数（其中不同部分的权重相等）来训练模型。
    - 我们只在损失函数的残差部分应用 RBA，并且这个算法的初始调整参数设置为零。
    - 使用一个特定的值（例如 0.001）作为 RBA 的调整率，这个值控制了 RBA 在训练过程中对残差进行调整的速率。
    - ds：
    - 在这段文字中，"apply RBA (initiated at zero) only in the residuals using 𝜂∗ = 1𝑒−3" 是指在训练过程中使用了一种称为**残差平衡算法（Residual Balancing Algorithm, RBA）的技术，并且该算法仅在残差（residuals）**部分应用。具体来说：
    - RBA (Residual Balancing Algorithm):
      - RBA 是一种用于平衡损失函数中不同项（如边界条件损失和PDE残差损失）的算法。它的目的是通过动态调整不同损失项的权重，使得训练过程更加稳定和高效。
      - 在这里，RBA 被用来平衡 PDE 残差损失（residuals）的权重。
    - initiated at zero:
      - 这意味着在训练开始时，RBA 的权重初始值为零。也就是说，初始时 RBA 不会对损失函数产生影响，随着训练的进行，RBA 会逐渐调整权重。
    - only in the residuals:
      - RBA 仅应用于 PDE 残差部分，而不是整个损失函数。这意味着 RBA 只会调整 PDE 残差损失的权重，而不会影响其他部分（如边界条件损失）。
    - using 𝜂∗ = 1𝑒−3:
      - 𝜂∗ 是 RBA 的一个超参数，控制权重调整的速率。𝜂∗ = 1𝑒−3 表示权重调整的步长较小，以确保调整过程平稳，避免过大的波动。
    - 总结：
      
      "apply RBA (initiated at zero) only in the residuals using 𝜂∗ = 1𝑒−3" 的意思是：在训练过程中，使用 RBA 算法来动态调整 PDE 残差损失的权重，且 RBA 的权重初始值为零，调整的步长为 1𝑒−3。RBA 仅作用于 PDE 残差部分，而不影响其他损失项（如边界条件损失）。
      
      这种做法的目的是通过动态调整 PDE 残差的权重，使得神经网络在训练过程中能够更好地处理 PDE 残差中的陡峭梯度，从而提高模型的收敛性和稳定性。
      
      在原文中，提到的是“apply RBA (initiated at zero) only in the residuals using 𝜂∗ = 1𝑒−3”。这里的“residuals”确实需要更准确的解释。根据上下文，这里的“residuals”更可能是指PDE的残差部分，而不是泛指所有残差。以下是我的分析依据和修正：
      
      1. 为什么是PDE残差？
    - 在物理信息神经网络（PINN）或相关方法（如cPIKAN）中，损失函数通常由两部分组成：
      - PDE残差（PDE residuals）：衡量神经网络解是否满足偏微分方程（PDE）。
      - 边界条件残差（Boundary condition residuals）：衡量神经网络解是否满足边界条件。
    - 原文中提到“unbiased loss function (𝑤𝑏𝑐 = 𝑤𝑝𝑑𝑒 = 1)”，这表明损失函数中已经明确区分了边界条件损失（𝑤𝑏𝑐）和PDE残差损失（𝑤𝑝𝑑𝑒）。
    - 接下来提到“apply RBA only in the residuals”，结合上下文，这里的“residuals”更可能是指PDE残差，因为RBA的目的是动态调整损失函数中不同部分的权重，而PDE残差通常是训练中更难优化的部分（尤其是当波数增加时，PDE残差的梯度会变得更陡峭）。
    - 2. 修正后的理解
      
      “apply RBA (initiated at zero) only in the residuals using 𝜂∗ = 1𝑒−3” 的意思是：
    - 在训练过程中，使用RBA算法动态调整PDE残差部分的权重。
    - RBA的权重初始值为零（initiated at zero），即初始时不调整权重。
    - 调整的步长为 𝜂∗ = 1𝑒−3，这是一个较小的值，以确保权重调整过程平稳。
    - RBA仅作用于PDE残差部分，而不影响边界条件残差或其他损失项。
    - 3. 为什么不是所有残差？
    - 如果RBA应用于所有残差（包括边界条件残差），原文可能会更明确地提到“all residuals”或“both PDE and boundary condition residuals”。
    - 由于PDE残差通常是训练中更难优化的部分（尤其是在高波数情况下），因此RBA更可能被专门用于PDE残差部分，以帮助模型更好地处理陡峭梯度。
    - 4. 总结
      
      结合上下文和PINN的常见训练方法，这里的“residuals”更可能是指PDE残差，而不是所有残差。因此，RBA被应用于PDE残差部分，以动态调整其权重，从而帮助模型更好地收敛。
    - 我们需要仔细分析原文中的上下文和PINN的训练机制，来判断“residuals”是否可能指边界条件残差（BC residuals），而不是PDE残差。以下是我的详细分析和证据：
      
      1. 为什么“residuals”可能不是指BC residuals？
      
      证据1：原文中的损失函数权重
    - 原文提到：“we train our model with an unbiased loss function (𝑤𝑏𝑐 = 𝑤𝑝𝑑𝑒 = 1)”。
      - 这里明确区分了边界条件损失（𝑤𝑏𝑐）和PDE残差损失（𝑤𝑝𝑑𝑒），并且两者的初始权重均为1。
      - 如果RBA应用于BC residuals，那么原文可能会更明确地提到“apply RBA to boundary conditions”或“apply RBA to 𝑤𝑏𝑐”。
      - 但原文说的是“apply RBA only in the residuals”，这里的“residuals”更可能是指PDE residuals，因为PDE residuals通常是训练中更难优化的部分。
    - 证据2：问题的复杂性
    - 原文提到：“This modification induces steeper gradients in the PDE residuals, making it difficult for the neural network to approximate.”
      - 这里明确指出，高波数会导致PDE residuals中的梯度变得更陡峭，从而增加训练的难度。
      - 因此，RBA更可能被用于处理PDE residuals，因为这是训练中的主要难点。
    - 证据3：RBA的作用
    - RBA的目的是动态调整损失函数中不同部分的权重，以平衡训练的难度。
      - 在PINN中，PDE residuals通常比BC residuals更难优化，尤其是在高波数情况下。
      - 因此，RBA更可能被用于PDE residuals，而不是BC residuals。
    - 2. 为什么“residuals”不太可能指BC residuals？
      
      反证1：BC residuals的性质
    - BC residuals通常比PDE residuals更容易优化，因为边界条件通常是明确的（例如Dirichlet或Neumann条件），并且计算相对简单。
    - 如果RBA应用于BC residuals，那么它的作用可能不如应用于PDE residuals显著。
    - 反证2：原文的上下文
    - 原文的重点是解决高波数Helmholtz方程，这会导致PDE residuals中的梯度变得非常陡峭。
    - 如果RBA仅应用于BC residuals，那么它对解决高波数问题的帮助可能有限。
    - 3. 进一步证据：PINN的训练机制
    - 在PINN中，PDE residuals和BC residuals通常是分开计算的。
      - PDE residuals是通过神经网络解代入PDE得到的。
      - BC residuals是通过神经网络解在边界上的值与真实边界条件的差异得到的。
    - 如果RBA应用于BC residuals，那么它只会调整BC residuals的权重，而不会直接影响PDE residuals。
      - 这与原文中提到的“steeper gradients in the PDE residuals”不太吻合。
    - 综合以上分析，原文中的“residuals”更可能是指PDE residuals，而不是BC residuals。证据包括：
    - 原文明确区分了PDE residuals和BC residuals，并指出PDE residuals在高波数情况下更难优化。
    - RBA的作用是动态调整损失函数中不同部分的权重，而PDE residuals通常是训练中的主要难点。
    - 如果RBA应用于BC residuals，那么它对解决高波数问题的帮助可能有限。
    - 当然，如果原文有其他上下文或细节表明“residuals”可能包括BC residuals，我们可以进一步讨论。但目前的分析支持“residuals”指PDE residuals的结论。
      
      4. 总结

实验2：不可压缩 Navier-Stokes 方程 (Navier-Stokes equation)

目标：比较PINNs和PIKANs在求解二维不可压缩 Navier-Stokes 方程上的性能，并分析不同多项式类型对结果的影响。
设置：
- 二维不可压缩 Navier-Stokes 方程，解析解，边界条件，人工粘性。P12
- PINNs：6层隐藏层，每层128个神经元，双曲正切激活函数。
- PIKANs：5层隐藏层，每层32个神经元，五次 Chebyshev、Legendre、Jacobi 或 Hermite 多项式激活函数。P22
- 训练策略：全局权重，RBA，Adam优化器。
- 评估指标：相对 L2 错误，训练时间。
结果：
- Re=400：PIKANs 与 PINNs 性能相当，cPIKAN 最具优势。P13
- Re=2000：cPIKAN 单独使用时性能较差，但结合 EVM 或 RBA 后可以显著提高精度。P13P14
- 不同多项式类型：Chebyshev 多项式在 Re=400 和 2000 时都表现出色，Jacobi 多项式在 Re=2000 时也具有竞争力。P13P14

实验3：Allen-Cahn 方程 (Allen-Cahn equation)

目标：比较PINNs和PIKANs在求解二维 Allen-Cahn 方程上的性能。
设置：
- 二维 Allen-Cahn 方程，解析解，边界条件。
- PINNs和PIKANs：各种架构，包括不同层数、神经元数量和激活函数。P13P15P16
- 训练策略：全局权重，RBA，Adam优化器。
- 评估指标：相对 L2 错误，训练时间。
结果：
- PINN + RBA 表现最好，收敛速度最快。P16
- cPIKAN 和 cPIKAN + RBA 的精度接近，但运行时间更长。P16
- PIKANs 的精度不如 PINN + RBA。P16

实验4：反应扩散方程 (Reaction-diffusion equation)

目标：使用 B-cPIKAN 和 B-PINN 解决带噪声数据的 1D 反应扩散方程逆向问题。P16
设置：
- 1D 反应扩散方程，噪声数据。P16P18
- B-cPIKAN 和 B-PINN：不同架构，使用贝叶斯框架和 HMC 方法。P18
- 评估指标：相对 L2 错误，参数估计精度，不确定性。
结果：
- B-cPIKAN 和 B-PINN 表现相似，预测均值和不确定性相似。P18
- B-cPIKAN 对参数 k 的估计略优于 B-PINN。

实验5：Burgers 方程 (Burgers equation)

目标：比较DeepONet和DeepOKAN在求解 1D Burgers 方程算子学习任务上的性能。
设置：
- 1D Burgers 方程，周期边界条件。
- DeepONet和DeepOKAN：不同架构，使用 Chebyshev KAN 和双曲正切激活函数。P18
- 训练策略：Adam优化器，L2 正则化。
- 评估指标：相对 L2 错误，训练时间。
结果：
- DeepOKANs 在计算成本更高的情况下优于 DeepONet。P19
- DeepOKANs 对噪声输入函数更具鲁棒性。P19

实验6：Darcy 问题 (Darcy problem)

目标：比较DeepONet和DeepOKAN在求解 2D Darcy 问题算子学习任务上的性能。
设置：
- 2D Darcy 问题，高斯过程先验，均匀网格。
- DeepONet和DeepOKAN：不同架构，使用 Chebyshev KAN 和双曲正切激活函数。P19
- 训练策略：Adam优化器，L2 正则化。
- 评估指标：相对 L2 错误，训练时间。
结果：
- DeepONet 在计算成本更低的情况下优于 DeepOKAN。P19
- DeepOKAN 对噪声输入函数更具鲁棒性。P19

信息瓶颈理论分析：P20P21

拟合阶段：损失函数和残差呈现有序模式，SNR 从高到低，模型紧密拟合训练数据。P20P21
扩散阶段： SNR 波动，残差逐渐无序，模型探索最小化训练误差的方向。P20P21
总扩散阶段： SNR 突然增加并收敛到临界值，残差无序，模型简化内部表示，提高效率和泛化能力，预测结果接近解析解。P20P21

总结：

论文中 PDE 方面的实验涵盖了多种问题，包括亥姆霍兹方程、不可压缩 Navier-Stokes 方程、Allen-Cahn 方程、反应扩散方程、Burgers 方程和 Darcy 问题。实验结果表明，cPIKANs 在求解 PDE 方面具有潜力，并可以与 PINNs 相媲美。此外，DeepOKANs 在算子学习任务中表现出色，并对噪声输入函数更具鲁棒性。信息瓶颈理论分析揭示了 PINNs 和 cPIKANs 的学习动态，为理解模型行为和改进训练策略提供了指导。

相对l2误差

文中的相对 L2 误差是通过以下步骤计算得出的：

计算预测解与解析解之间的差异：对于每个测试点，使用模型预测的解 u_pred 和解析解 u_analytical，计算它们之间的差异，即残差 e_i = u_pred(x_i) - u_analytical(x_i)。
计算残差平方和：将所有测试点的残差平方求和，得到总残差平方和。
计算解析解平方和：将所有测试点的解析解平方求和，得到解析解的平方和。
计算相对 L2 误差：将总残差平方和除以解析解的平方和，得到相对 L2 误差。公式如下：

相对 L2 误差 = (Σ_i (u_pred(x_i) - u_analytical(x_i))^2) / (Σ_i (u_analytical(x_i))^2)

其中：

u_pred(x_i)：模型在测试点 x_i 处的预测解。
u_analytical(x_i)：解析解在测试点 x_i 处的值。
x_i：测试点的空间坐标。

解释：

相对 L2 误差衡量了模型预测解与解析解之间的差异，误差越小，说明模型预测精度越高。
L2 范数（即欧几里得范数）在这里被用作衡量差异的指标，因为它具有一些良好的性质，例如可加性和均方根性质。
相对 L2 误差通过将残差平方和除以解析解的平方和进行归一化，使得不同问题的误差可以直接比较。

稳定性分析

敏感性分析

敏感性分析的目的：

文章之前的部分已经表明cPIKAN模型在性能上优于PINNs（Physics-Informed Neural Networks），并且显著减少了PIKAN的计算开销。但是，cPIKAN可能会变得不稳定。因此，作者进行了敏感性分析，以研究隐藏层数量（𝑛𝑙）和多项式阶数（𝑘）对模型稳定性的影响。

实验设置和观察结果：

作者首先固定多项式阶数，分别对PIKAN和PIKAN多网格方法在亥姆霍兹方程上的表现进行了研究，观察隐藏层数量的增加对模型性能的影响。
图10(e)显示，无论是增加隐藏层数量还是多项式阶数，都会损害模型的性能。cPIKAN(𝑅)在亥姆霍兹方程（𝑎1 = 𝑎2 = 6）上的表现也观察到了类似的行为。
具体来说，增加𝑛𝑙或𝑘可以减少模型的相对L2误差，直到𝑛𝑙达到6层和𝑘达到7阶；然而，更高的阶数或更深的网络会导致振荡，从而降低模型的性能。
对于原始的Chebyshev-KAN公式（即cPIKAN），这些振荡可能变得无法控制。如果𝑘大于6或𝑛𝑙大于5，经过多次迭代训练后，cPIKAN的损失函数可能变得未定义。

损失景观的可视化：

为了进一步探索这种行为，作者可视化了PINN、cPIKAN和cPIKAN(𝑅)的损失景观。
为了获得这些图表，作者遵循了文献[7,33,70]中的方法，并将目标损失函数重新表述为方程(22)中的形式。
方程(22)中的𝑓(𝑥1,𝑥2)表示在参数空间中沿着两个主要成分方向移动时的损失函数值。

损失景观的特点：

PINN的损失景观（图11(a)）表现出理想的特性，如平滑性、连续性和凸性。
对于更高的学习率（图11(b)），这种模式变得更加明显，这与之前的观察结果[26]一致。
通过将Chebyshev多项式转换为它们的递归表示（即cPIKAN(𝑅)），作者绕过了计算反三角函数的过程，并恢复了模型的稳定性。图11(d)显示cPIKAN(𝑅)展现了一个理想的损失景观，这可能允许优化器即使在模型参数在远离最小值区域初始化的情况下，也能成功收敛到全局最小值。

总的来说，这段文本通过敏感性分析探讨了不同网络架构参数对cPIKAN模型稳定性和性能的影响，并通过损失景观的可视化揭示了模型对初始化的敏感性以及如何通过修改模型结构来提高稳定性

References

[1] S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall PTR, 1998. [2] G. Cybenko, Approximation by superpositions of a sigmoidal function, Math. Control Signals Syst. 2 (4) (1989) 303–314. [3] K. Hornik, M. Stinchcombe, H. White, Multilayer feedforward networks are universal approximators, Neural Net. 2 (5) (1989) 359–366. [4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio, Generative adversarial networks, Commun. ACM 63 (11) (2020) 139–144. [5] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is all you need, Adv. Neural Inf. Process. Syst. 30 (2017). [6] K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778. [7] H. Li, Z. Xu, G. Taylor, C. Studer, T. Goldstein, Visualizing the loss landscape of neural nets, Adv. Neural Inf. Process. Syst. 31 (2018). [8] J.D. Toscano, C. Zuniga-Navarrete, W.D.J. Siu, L.J. Segura, H. Sun, Teeth mold point cloud completion via data augmentation and hybrid rl-gan, J. Comput. Inf. Sci. Eng. 23 (4) (2023) 041008. [9] L.P. Kaelbling, M.L. Littman, A.W. Moore, Reinforcement learning: A survey, J. Artif. Intell. Res. 4 (1996) 237–285. [10] M. Cranmer, Interpretable machine learning for science with PySR and SymbolicRegression. jl, 2023, arXiv preprint arXiv:2305.01582. [11] Z. Liu, Y. Wang, S. Vaidya, F. Ruehle, J. Halverson, M. Soljačić, T.Y. Hou, M. Tegmark, KAN: Kolmogorov-Arnold networks, 2024, arXiv preprint arXiv:2404.19756. [12] D.A. Sprecher, S. Draghici, Space-filling curves and Kolmogorov superposition-based neural networks, Neural Netw. 15 (1) (2002) 57–67. [13] M. Köppen, On the training of a Kolmogorov network, in: Artificial Neural Networks—ICANN 2002: International Conference Madrid, Spain, August 28–30, 2002 Proceedings 12, Springer, 2002, pp. 474–479. [14] J. Schmidhuber, Discovering neural nets with low Kolmogorov complexity and high generalization capability, Neural Netw. 10 (5) (1997) 857–873. [15] M.-J. Lai, Z. Shen, The kolmogorov superposition theorem can break the curse of dimensionality when approximating high dimensional functions, 2021, arXiv preprint arXiv:2112.09963. [16] P.-E. Leni, Y.D. Fougerolle, F. Truchetet, The kolmogorov spline network for image processing, in: Image Processing: Concepts, Methodologies, Tools, and Applications, IGI Global, 2013, pp. 54–78. [17] J. He, On the optimal expressive power of relu dnns and its application in approximation with kolmogorov superposition theorem, 2023, arXiv preprint arXiv:2308.05509. [18] A.D. Jagtap, K. Kawaguchi, G.E. Karniadakis, Adaptive activation functions accelerate convergence in deep and physics-informed neural networks, J. Comput. Phys. 404 (2020) 109136. [19] S. Guarnieri, F. Piazza, A. Uncini, Multilayer feedforward networks with adaptive spline activation function, IEEE Trans. Neural Netw. 10 (3) (1999) 672–683. [20] D. Fakhoury, E. Fakhoury, H. Speleers, ExSpliNet: An interpretable and expressive spline-based neural network, Neural Netw. 152 (2022) 332–346. [21] C.J. Vaca-Rubio, L. Blanco, R. Pereira, M. Caus, Kolmogorov-Arnold Networks (KANs) for Time Series Analysis, 2024, arXiv preprint arXiv:2405.08790. [22] M.E. Samadi, Y. Müller, A. Schuppert, Smooth Kolmogorov Arnold networks enabling structural knowledge representation, 2024, arXiv preprint arXiv: 2405.11318. [23] Z. Li, Kolmogorov-Arnold Networks are Radial Basis Function Networks, 2024, arXiv preprint arXiv:2405.06721. [24] Z. Bozorgasl, H. Chen, Wav-KAN: Wavelet Kolmogorov-Arnold Networks, 2024, arXiv:2405.12832. [25] NLNR, Jacobikan, 2024, https://github.com/mintisan/awesome-kan/. [26] SynodicMonth, ChebyKAN, 2024, https://github.com/SynodicMonth/ChebyKAN/. [27] S. SS, Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation, 2024, arXiv preprint arXiv:2405.07200. [28] S.S. Bhattacharjee, TorchKAN: Simplified KAN Model with Variations, 2024, https://github.com/1ssb/torchkan/. [29] M. Raissi, P. Perdikaris, G.E. Karniadakis, Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations, J. Comput. Phys. 378 (2019) 686–707. [30] D.W. Abueidda, P. Pantidis, M.E. Mobasher, DeepOKAN: Deep Operator Network Based on Kolmogorov Arnold Networks for Mechanics Problems, 2024, arXiv preprint arXiv:2405.19143. [31] G.E. Karniadakis, I.G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang, Physics-informed machine learning, Nat. Rev. Phys. 3 (6) (2021) 422–440. [32] L.D. McClenny, U.M. Braga-Neto, Self-adaptive physics-informed neural networks, J. Comput. Phys. 474 (2023) 111722. [33] Z. Wang, X. Meng, X. Jiang, H. Xiang, G.E. Karniadakis, Solution multiplicity and effects of data and eddy viscosity on Navier-Stokes solutions inferred by physics-informed neural networks, 2023, arXiv preprint arXiv:2309.06010. [34] L. Lu, P. Jin, G. Pang, Z. Zhang, G.E. Karniadakis, Learning nonlinear operators via DeepONet based on the universal approximation theorem of operators, Nat. Mach. Intell 3 (3) (2021) 218–229. [35] C. Wu, M. Zhu, Q. Tan, Y. Kartha, L. Lu, A comprehensive study of non-adaptive and residual-based adaptive sampling for physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 403 (2023) 115671. [36] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Learning in PINNs: Phase transition, total diffusion, and generalization, 2024, arXiv preprint arXiv:2403.18494. [37] M.D. Wilkinson, M. Dumontier, I.J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J.-W. Boiten, L.B. da Silva Santos, P.E. Bourne, et al., The FAIR Guiding Principles for scientific data management and stewardship, Sci. Data 3 (1) (2016) 1–9. [38] N. Tishby, F.C. Pereira, W. Bialek, The information bottleneck method, 2000, arXiv preprint physics/0004057. [39] N. Tishby, N. Zaslavsky, Deep learning and the information bottleneck principle, in: 2015 Ieee Information Theory Workshop (Itw), IEEE, 2015, pp. 1–5. [40] R. Shwartz-Ziv, N. Tishby, Opening the black box of deep neural networks via information, 2017, arXiv preprint arXiv:1703.00810. [41] Z. Goldfeld, Y. Polyanskiy, The information bottleneck problem and its applications in machine learning, IEEE J. Sel. Areas Inf. Theory 1 (1) (2020) 19–38. [42] A.F. Psaros, X. Meng, Z. Zou, L. Guo, G.E. Karniadakis, Uncertainty quantification in scientific machine learning: Methods, metrics, and comparisons, J. Comput. Phys. 477 (2023) 111902. [43] S. Cai, Z. Mao, Z. Wang, M. Yin, G.E. Karniadakis, Physics-informed neural networks (PINNs) for fluid mechanics: A review, Acta Mech. Sin. 37 (12) (2021) 1727–1738. [44] Z. Mao, A.D. Jagtap, G.E. Karniadakis, Physics-informed neural networks for high-speed flows, Comput. Methods Appl. Mech. Engrg. 360 (2020) 112789. [45] L. Yang, X. Meng, G.E. Karniadakis, B-PINNs: Bayesian physics-informed neural networks for forward and inverse PDE problems with noisy data, J. Comput. Phys. 425 (2021) 109913. [46] X. Meng, Z. Li, D. Zhang, G.E. Karniadakis, PPINN: Parareal physics-informed neural network for time-dependent PDEs, Comput. Methods Appl. Mech. Engrg. 370 (2020) 113250. [47] Z. Zou, G.E. Karniadakis, L-HYDRA: Multi-head physics-informed neural networks, 2023, arXiv preprint arXiv:2301.02152. 23 [48] Z. Zou, X. Meng, G.E. Karniadakis, Correcting model misspecification in physics-informed neural networks (PINNs), J. Comput. Phys. 505 (2024) 112918. K. Shukla et al. Computer Methods in Applied Mechanics and Engineering 431 (2024) 117290 [49] Z. Zhang, Z. Zou, E. Kuhl, G.E. Karniadakis, Discovering a reaction–diffusion model for Alzheimer’s disease by combining PINNs with symbolic regression, Comput. Methods Appl. Mech. Engrg. 419 (2024) 116647. [50] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging multitime Hamilton–Jacobi PDEs for certain scientific machine learning problems, SIAM J. Sci. Comput. 46 (2) (2024) C216–C248. [51] P. Chen, T. Meng, Z. Zou, J. Darbon, G.E. Karniadakis, Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning, in: 6th Annual Learning for Dynamics & Control Conference, PMLR, 2024, pp. 1–12. [52] Z. Li, N. Kovachki, K. Azizzadenesheli, B. Liu, K. Bhattacharya, A. Stuart, A. Anandkumar, Fourier neural operator for parametric partial differential equations, 2020, arXiv preprint arXiv:2010.08895. [53] K. Shukla, P.C. Di Leoni, J. Blackshire, D. Sparkman, G.E. Karniadakis, Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks, J. Nondestruct. Eval. 39 (2020) 1–20. [54] K. Shukla, A.D. Jagtap, J.L. Blackshire, D. Sparkman, G.E. Karniadakis, A physics-informed neural network for quantifying the microstructural properties of polycrystalline nickel using ultrasound data: A promising approach for solving inverse problems, IEEE Signal Process. Mag. 39 (1) (2021) 68–77. [55] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention in physics-informed neural networks, Comput. Methods Appl. Mech. Engrg. 421 (2024) 116805. [56] L. Lu, X. Meng, S. Cai, Z. Mao, S. Goswami, Z. Zhang, G.E. Karniadakis, A comprehensive and fair comparison of two neural operators (with practical extensions) based on fair data, Comput. Methods Appl. Mech. Engrg. 393 (2022) 114778. [57] Z. Zou, A. Kahana, E. Zhang, E. Turkel, R. Ranade, J. Pathak, G.E. Karniadakis, Large scale scattering using fast solvers based on neural operators, 2024, arXiv preprint arXiv:2405.12380. [58] K. Shukla, V. Oommen, A. Peyvan, M. Penwarden, N. Plewacki, L. Bravo, A. Ghoshal, R.M. Kirby, G.E. Karniadakis, Deep neural operators as accurate surrogates for shape optimization, Eng. Appl. Artif. Intell. 129 (2024) 107615. [59] X. Meng, L. Yang, Z. Mao, J. del Águila Ferrandis, G.E. Karniadakis, Learning functional priors and posteriors from data and physics, J. Comput. Phys. 457 (2022) 111073. [60] Z. Zou, X. Meng, A.F. Psaros, G.E. Karniadakis, NeuralUQ: A comprehensive library for uncertainty quantification in neural differential equations and operators, SIAM Rev. 66 (1) (2024) 161–190. [61] Z. Zou, X. Meng, G.E. Karniadakis, Uncertainty quantification for noisy inputs-outputs in physics-informed neural networks and neural operators, 2023, arXiv preprint arXiv:2311.11262. [62] J. Lin, Awesome-KAN, 2024, https://github.com/SpaceLearner/JacobiKAN/. [63] G. Karniadakis, S. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, second ed., Oxford University Press, Oxford,UK, 2005. [64] B. Ter-Avanesov, Awesome-KAN, 2024, https://github.com/Boris-73-TA/OrthogPolyKANs/. [65] G. Karniadakis, S.J. Sherwin, Spectral/hp Element Methods for Computational Fluid Dynamics, Oxford University Press, USA, 2005. [66] N. Rahaman, A. Baratin, D. Arpit, F. Draxler, M. Lin, F. Hamprecht, Y. Bengio, A. Courville, On the spectral bias of neural networks, in: International Conference on Machine Learning, PMLR, 2019, pp. 5301–5310. [67] S. Greydanus, M. Dzamba, J. Yosinski, Hamiltonian neural networks, Adv. Neural Inf. Process. Syst. 32 (2019). [68] A. Garg, S.S. Kagi, Hamiltonian neural networks, 2019. [69] D.P. Kingma, J. Ba, Adam: A method for stochastic optimization, 2014, arXiv preprint arXiv:1412.6980. [70] A. Krishnapriyan, A. Gholami, S. Zhe, R. Kirby, M.W. Mahoney, Characterizing possible failure modes in physics-informed neural networks, Adv. Neural Inf. Process. Syst. 34 (2021) 26548–26560. [71] Y. He, Z. Wang, H. Xiang, X. Jiang, D. Tang, An artificial viscosity augmented physics-informed neural network for incompressible flow, Appl. Math. Mech. 44 (7) (2023) 1101–1110. [72] J.-L. Guermond, R. Pasquetti, B. Popov, Entropy viscosity method for nonlinear conservation law, J. Comput. Phys. 230 (11) (2011) 4248–4267. [73] Z. Wang, M.S. Triantafyllou, Y. Constantinides, G. Karniadakis, An entropy-viscosity large eddy simulation study of turbulent flow in a flexible pipe, J. Fluid Mech. 859 (2019) 691–730. [74] X. Jin, S. Cai, H. Li, G.E. Karniadakis, NSFnets (Navier-Stokes flow nets): Physics-informed neural networks for the incompressible Navier-Stokes equations, J. Comput. Phys. 426 (2021) 109951. [75] S.M. Allen, J.W. Cahn, Ground state structures in ordered binary alloys with second neighbor interactions, Acta Metall. 20 (3) (1972) 423–433. [76] K. Linka, A. Schäfer, X. Meng, Z. Zou, G.E. Karniadakis, E. Kuhl, Bayesian physics informed neural networks for real-world nonlinear dynamical systems, Comput. Methods Appl. Mech. Engrg. 402 (2022) 115346. [77] M. Yin, Z. Zou, E. Zhang, C. Cavinato, J.D. Humphrey, G.E. Karniadakis, A generative modeling framework for inferring families of biomechanical constitutive laws in data-sparse regimes, J. Mech. Phys. Solids 181 (2023) 105424. [78] Z. Zou, T. Meng, P. Chen, J. Darbon, G.E. Karniadakis, Leveraging viscous Hamilton–Jacobi PDEs for uncertainty quantification in scientific machine learning, 2024, arXiv preprint arXiv:2404.08809. [79] R.M. Neal, et al., MCMC using Hamiltonian dynamics, Hand. Markov Chain Monte Carlo 2 (11) (2011) 2. [80] I. Loshchilov, F. Hutter, Decoupled weight decay regularization, 2017, arXiv preprint arXiv:1711.05101. [81] T.M. Inc, MATLAB version: 9.14.0 (r2023a), 2023, URL https://www.mathworks.com. [82] R. Shwartz-Ziv, Information flow in deep neural networks, 2022, arXiv preprint arXiv:2202.06749. [83] S.J. Anagnostopoulos, J.D. Toscano, N. Stergiopulos, G.E. Karniadakis, Residual-based attention and connection to information bottleneck theory in PINNs, 2023, arXiv preprint arXiv:2307.00379. [84] K. Shukla, A.D. Jagtap, G.E. Karniadakis, Parallel physics-informed neural networks via domain decomposition, J. Comput. Phys. 447 (2021) 110683.

查看全文

http://www.kler.cn/a/581564.html