论文阅读——高光谱与多光谱图像融合:通过自监督表示实现任意分辨率
Hyperspectral and multispectral image fusion with arbitrary resolution through self-supervised representations
- Abstract
- Method
- 3.1 Problem Formulation
- 3.2 Deep Continuous Low-rank Factorization Model
- 3.3 Theoretical Analysis
Abstract
低分辨率高光谱图像(LR-HSI)与高分辨率多光谱图像(HR-MSI)的融合已成为实现高光谱图像超分辨率(SR)的有效技术。以往的研究主要集中在通过利用适当的图像先验和从潜在高光谱图像(HR-HSI)与观测图像之间的差异计算出的似然,来估计潜在高分辨率高光谱图像的后验分布。在各种先验中,低秩性通过矩阵分解在保留潜在高光谱图像特征方面表现突出。然而,以往研究的主要局限在于融合模型的泛化能力受限于固定的分辨率尺度,每当输出分辨率发生变化时都需要重新训练模型。为了克服这一局限,我们提出了一种新颖的连续低秩分解(CLoRF)方法,通过将两种神经表示集成到矩阵分解中,分别捕捉空间和光谱信息。这一方法使我们能够以自监督的方式同时利用矩阵分解的低秩性和神经表示的连续性。理论上,我们证明了所提出的连续低秩分解具有低秩性和Lipschitz连续性。实验结果表明,我们的方法显著超越了现有技术,并且能够在无需重新训练神经网络的情况下实现用户所需的分辨率。
Method
3.1 Problem Formulation
给定高分辨率多光谱图像(HR-MSI)和低分辨率高光谱图像(LR-HSI)数据,我们的目标是近似生成对应的高分辨率高光谱图像(HR-HSI)数据。
具体来说,HR-HSI、LR-HSI 和 HR-MSI 数据沿光谱维度被转换为矩阵形式。HR-HSI 表示为矩阵 Z ∈ R L × N \mathbf{Z} \in \mathbb{R}^{L \times N} Z∈RL×N,其中 L L L 是光谱波段数, N = H × W N = H \times W N=H×W 是总像素数, H H H 和 W W W 分别表示空间分辨率。LR-HSI 表示为矩阵 X ∈ R L × n \mathbf{X} \in \mathbb{R}^{L \times n} X∈RL×n,其中 n n n 表示低分辨率空间像素数,且 n ≪ N n \ll N n≪N。最后,HR-MSI 表示为矩阵 Y ∈ R l × N \mathbf{Y} \in \mathbb{R}^{l \times N} Y∈Rl×N,其中 l ≪ L l \ll L l≪L 表示 Y \mathbf{Y} Y 的光谱波段数少于 X \mathbf{X} X。
LR-HSI X \mathbf{X} X 可以解释为 HR-HSI Z \mathbf{Z} Z 在空间维度上的降质表示,其公式如下:
X = Z B S + N h , ( 1 ) \mathbf{X} = \mathbf{Z} \mathbf{B} \mathbf{S} + \mathbf{N}_h, \quad (1) X=ZBS+Nh,(1)
其中 N h ∼ N ( 0 , σ h I ) \mathbf{N}_h \sim \mathcal{N}(0, \sigma_h \mathbf{I}) Nh∼N(0,σhI) 表示加性高斯噪声。此外, B ∈ R N × N \mathbf{B} \in \mathbb{R}^{N \times N} B∈RN×N 是 Z \mathbf{Z} Z 的空间模糊算子,表示高光谱传感器的点扩散函数(PSF)。 S ∈ R N × n \mathbf{S} \in \mathbb{R}^{N \times n} S∈RN×n 是空间下采样矩阵。
类似地,HR-MSI Y \mathbf{Y} Y 可以视为 HR-HSI Z \mathbf{Z} Z 在光谱维度上的降采样表示,其公式如下:
Y = H Z + N m , ( 2 ) \mathbf{Y} = \mathbf{H} \mathbf{Z} + \mathbf{N}_m, \quad (2) Y=HZ+Nm,(2)
其中 H ∈ R l × L \mathbf{H} \in \mathbb{R}^{l \times L} H∈Rl×L 是光谱响应函数(SRF), N m ∼ N ( 0 , σ m I ) \mathbf{N}_m \sim \mathcal{N}(0, \sigma_m \mathbf{I}) Nm∼N(0,σmI) 表示加性高斯噪声。
由于高光谱图像通常具有低秩结构,因此它们位于一个低维子空间中(Simoes et al., 2014; Zhuang & Bioucas-Dias, 2018)。低秩分解的目标是将目标矩阵 Z \mathbf{Z} Z 近似为两个矩阵的乘积:
Z ≈ E A , ( 3 ) \mathbf{Z} \approx \mathbf{E} \mathbf{A}, \quad (3) Z≈EA,(3)
其中 E ∈ R L × K \mathbf{E} \in \mathbb{R}^{L \times K} E∈RL×K 是光谱字典, A ∈ R K × N \mathbf{A} \in \mathbb{R}^{K \times N} A∈RK×N 是系数矩阵, K ≪ L K \ll L K≪L 是一个超参数,用于控制光谱基的数量。
低秩分解表示具有三个主要优势:
- 首先,它最大限度地利用了光谱波段之间的强相关性;
- 其次,通过保持 K K K 较小( K ≪ L K \ll L K≪L),光谱模式的尺寸得以减小,从而提高了计算效率;
- 第三,矩阵 Z \mathbf{Z} Z 的每一列可以通过矩阵 E \mathbf{E} E 的列和矩阵 A \mathbf{A} A 中的系数线性表示。矩阵 A \mathbf{A} A 的行保持了矩阵 Z \mathbf{Z} Z 的空间结构。
需要注意的是,(3) 式并不是 Z \mathbf{Z} Z 的唯一分解形式。可以通过任意逆矩阵 B ∈ R K × K \mathbf{B} \in \mathbb{R}^{K \times K} B∈RK×K 得到另一组分解 E ^ = E B \hat{\mathbf{E}} = \mathbf{E} \mathbf{B} E^=EB 和 A ^ = B − 1 A \hat{\mathbf{A}} = \mathbf{B}^{-1} \mathbf{A} A^=B−1A。
将式 (3) 代入式 (1) 和式 (2), X \mathbf{X} X 和 Y \mathbf{Y} Y 可以表示为:
X = E A B S + N h , Y = H E A + N m . ( 4 ) \mathbf{X} = \mathbf{E} \mathbf{A} \mathbf{B} \mathbf{S} + \mathbf{N}_h, \quad \mathbf{Y} = \mathbf{H} \mathbf{E} \mathbf{A} + \mathbf{N}_m. \quad (4) X=EABS+Nh,Y=HEA+Nm.(4)
因此,融合问题转化为从矩阵 X \mathbf{X} X 和 Y \mathbf{Y} Y 中估计光谱字典 E \mathbf{E} E 及其对应的系数矩阵 A \mathbf{A} A,其优化问题如下:
min E , A ∥ X − E A B S ∥ F 2 + λ ∥ Y − H E A ∥ F 2 , ( 5 ) \min_{\mathbf{E}, \mathbf{A}} \|\mathbf{X} - \mathbf{E} \mathbf{A} \mathbf{B} \mathbf{S}\|_F^2 + \lambda \|\mathbf{Y} - \mathbf{H} \mathbf{E} \mathbf{A}\|_F^2, \quad (5) E,Amin∥X−EABS∥F2+λ∥Y−HEA∥F2,(5)
其中 ∥ ⋅ ∥ F \|\cdot\|_F ∥⋅∥F 表示 Frobenius 范数, λ \lambda λ 是平衡因子。由于缺乏特定的先验信息,问题 (5) 是欠定的;因此,现有工作主要集中在探索合适的先验信息。然而,这些方法在处理 HR-HSI 时局限于两种模态的维度,无法有效地融合任意分辨率的高光谱图像。
3.2 Deep Continuous Low-rank Factorization Model
隐式神经表示(Implicit Neural Representation, INR)被广泛用于学习连续数据表示。然而,简单地使用单一 INR 来表示高光谱图像体积会导致效率低下和计算成本高昂,因为它忽略了高光谱图像独特的低秩结构。相反,我们提出了一种 连续低秩分解(Continuous Low-Rank Factorization, CLoRF) 模型,用于连续且有效地学习高光谱图像表示。我们的方法通过同时学习空间和光谱 INR 的低秩连续表示,充分挖掘了高光谱图像的低秩结构。有效地捕捉了高光谱图像的低秩性和平滑性,同时克服了现有基于 INR 的方法(X. Wang, Cheng, et al., 2023; Deng et al., 2023)在高光谱图像中计算负担过重的问题。
如图 2 所示,CLoRF 由两个步骤组成:低秩分解和学习。低秩分解将高光谱图像数据空间分解为两个较小的子空间:空间基 A \mathbf{A} A 和光谱变换 E \mathbf{E} E。此外,空间和光谱分量通过两个神经网络进行参数化,使用两个 INR 来学习高分辨率高光谱图像(HR-HSI)的低秩连续表示。受正弦表示网络(Sinusoidal Representation Networks, SIRENs)(Sitzmann et al., 2020)的启发,我们采用两个 SIREN 分别估计式 (3) 中的 E \mathbf{E} E 和 A \mathbf{A} A。
具体来说,用一个由参数 θ \theta θ 参数化的 SIREN Ψ θ ( ⋅ ) \Psi_\theta(\cdot) Ψθ(⋅) 来近似 E \mathbf{E} E,另一个由参数 α \alpha α 参数化的 SIREN Φ α ( ⋅ ) \Phi_\alpha(\cdot) Φα(⋅) 来近似 A \mathbf{A} A,其定义如下:
E ^ ( b ; θ ) = [ Ψ θ ( b 1 ) , Ψ θ ( b 2 ) , … , Ψ θ ( b L ) ] T , A ^ ( O ; α ) = [ Φ α ( o 11 ) , Φ α ( o 12 ) , … , Φ α ( o H W ) ] , \hat{\mathbf{E}}(\mathbf{b}; \theta) = [\Psi_\theta(b_1), \Psi_\theta(b_2), \ldots, \Psi_\theta(b_L)]^T, \quad \\ \hat{\mathbf{A}}(\mathbf{O}; \alpha) = [\Phi_\alpha(o_{11}), \Phi_\alpha(o_{12}), \ldots, \Phi_\alpha(o_{HW})], E^(b;θ)=[Ψθ(b1),Ψθ(b2),…,Ψθ(bL)]T,A^(O;α)=[Φα(o11),Φα(o12),…,Φα(oHW)],
其中
Ψ
θ
(
b
i
)
:
R
→
R
K
\Psi_\theta(b_i): \mathbb{R} \rightarrow \mathbb{R}^K
Ψθ(bi):R→RK 是一个光谱基,
b
i
∈
R
b_i \in \mathbb{R}
bi∈R 是低分辨率高光谱图像(LR-HSI)第
i
i
i 个波段索引的一维坐标。
Φ
α
(
o
i
j
)
:
R
2
→
R
K
\Phi_\alpha(o_{ij}): \mathbb{R}^2 \rightarrow \mathbb{R}^K
Φα(oij):R2→RK 是一个空间基,
o
i
j
∈
R
2
o_{ij} \in \mathbb{R}^2
oij∈R2 是高分辨率多光谱图像(HR-MSI)的二维坐标。我们将光谱基表示为
b
=
[
b
1
,
b
2
,
…
,
b
L
]
T
\mathbf{b} = [b_1, b_2, \ldots, b_L]^T
b=[b1,b2,…,bL]T,空间基表示为
O
=
[
o
11
;
o
12
;
…
;
o
H
W
]
\mathbf{O} = [o_{11}; o_{12}; \ldots; o_{HW}]
O=[o11;o12;…;oHW]。两个网络的目标是学习如何从固定坐标映射到目标表示。这里,我们将这些网络形式化如下:
Ψ θ ( b i ) = W 1 d 1 ( ⋯ ( σ ( W 11 b i + c 11 ) ) ⋯ ) + c 1 d 1 , Φ α ( o i j ) = W 2 d 2 ( ⋯ ( σ ( W 21 o i j T + c 21 ) ) ⋯ ) + c 2 d 2 , \Psi_\theta(b_i) = W_{1d_1} (\cdots (\sigma(W_{11} b_i + c_{11})) \cdots) + c_{1d_1}, \quad \\ \Phi_\alpha(o_{ij}) = W_{2d_2} (\cdots (\sigma(W_{21} o_{ij}^T + c_{21})) \cdots) + c_{2d_2}, Ψθ(bi)=W1d1(⋯(σ(W11bi+c11))⋯)+c1d1,Φα(oij)=W2d2(⋯(σ(W21oijT+c21))⋯)+c2d2,
其中 σ \sigma σ 表示激活函数, θ = ( { W i 1 } i = 1 d 1 , { c 1 i } i = 1 d 1 ) \theta = (\{W_{i1}\}_{i=1}^{d_1}, \{c_{1i}\}_{i=1}^{d_1}) θ=({Wi1}i=1d1,{c1i}i=1d1) 和 α = ( { W i 2 } i = 1 d 2 , { c 2 i } i = 1 d 2 ) \alpha = (\{W_{i2}\}_{i=1}^{d_2}, \{c_{2i}\}_{i=1}^{d_2}) α=({Wi2}i=1d2,{c2i}i=1d2) 分别包含光谱 INR 和空间 INR 的权重矩阵和偏置向量。我们的方法是低秩分解从离散网格到连续域的自然扩展。目标高分辨率高光谱图像近似为 Z ^ = E ^ ( b ; θ ) A ^ ( O ; α ) \hat{\mathbf{Z}} = \hat{\mathbf{E}}(\mathbf{b}; \theta) \hat{\mathbf{A}}(\mathbf{O}; \alpha) Z^=E^(b;θ)A^(O;α)。
由于矩阵 A ^ ( O ; α ) \hat{\mathbf{A}}(\mathbf{O}; \alpha) A^(O;α) 保留了高光谱图像的空间结构,在不失一般性的情况下,我们考虑了高光谱图像的空间平滑性。此外,为了应对噪声干扰场景,我们在预测的系数矩阵 A ^ ( O ; α ) \hat{\mathbf{A}}(\mathbf{O}; \alpha) A^(O;α) 上进一步引入了总变差(Total Variation, TV)损失。数学上, A ^ ( O ; α ) \hat{\mathbf{A}}(\mathbf{O}; \alpha) A^(O;α) 的 TV 正则化公式如下:
∑ k = 1 K TV ( a ^ k ) = ∑ k = 1 K ( ∥ D h a ^ k ∥ 1 + ∥ D w a ^ k ∥ 1 ) , ( 6 ) \sum_{k=1}^K \text{TV}(\hat{a}_k) = \sum_{k=1}^K (\|D_h \hat{a}_k\|_1 + \|D_w \hat{a}_k\|_1), \quad (6) k=1∑KTV(a^k)=k=1∑K(∥Dha^k∥1+∥Dwa^k∥1),(6)
其中 a ^ k \hat{a}_k a^k 是 A ^ ( O ; α ) \hat{\mathbf{A}}(\mathbf{O}; \alpha) A^(O;α) 的第 k k k 行。 D h D_h Dh 和 D w D_w Dw 分别表示在矩阵形式的 a ^ k \hat{a}_k a^k 上沿高度和宽度方向的微分操作。这里, ∥ ⋅ ∥ 1 \|\cdot\|_1 ∥⋅∥1 表示 ℓ 1 \ell_1 ℓ1 范数。通过引入 TV 损失,我们促进了空间平滑性,并提高了融合的整体质量。
因此,带有 TV 先验的优化问题可以总结如下:
min θ , α L MSI + λ L HSI + η ∑ k = 1 K TV ( a ^ k ) , ( 7 ) \min_{\theta, \alpha} \mathcal{L}_{\text{MSI}} + \lambda \mathcal{L}_{\text{HSI}} + \eta \sum_{k=1}^K \text{TV}(\hat{a}_k), \quad (7) θ,αminLMSI+λLHSI+ηk=1∑KTV(a^k),(7)
其中 L MSI = ∥ X − E ^ ( b ; θ ) A ^ ( O ; α ) B S ∥ F 2 \mathcal{L}_{\text{MSI}} = \|\mathbf{X} - \hat{\mathbf{E}}(\mathbf{b}; \theta) \hat{\mathbf{A}}(\mathbf{O}; \alpha) \mathbf{B} \mathbf{S}\|_F^2 LMSI=∥X−E^(b;θ)A^(O;α)BS∥F2, L HSI = ∥ Y − H E ^ ( b ; θ ) A ^ ( O ; α ) ∥ F 2 \mathcal{L}_{\text{HSI}} = \|\mathbf{Y} - \mathbf{H} \hat{\mathbf{E}}(\mathbf{b}; \theta) \hat{\mathbf{A}}(\mathbf{O}; \alpha)\|_F^2 LHSI=∥Y−HE^(b;θ)A^(O;α)∥F2, η \eta η 是正则化参数。
在训练网络后,可以通过近似 E ^ ( b ; θ ∗ ) \hat{\mathbf{E}}(\mathbf{b}; \theta^*) E^(b;θ∗) 和 A ^ ( O ; α ∗ ) \hat{\mathbf{A}}(\mathbf{O}; \alpha^*) A^(O;α∗) 来保持 Z ^ \hat{\mathbf{Z}} Z^ 的低秩表示,其中 θ ∗ \theta^* θ∗ 和 α ∗ \alpha^* α∗ 对应于训练好的网络参数。由于网络以坐标作为输入,且式 (7) 中的优化不涉及真实高光谱图像作为监督标签,因此我们的方法是自监督的。我们采用 Adam 优化器进行优化,这是一种随机梯度下降算法。此外,通过将任意尺度的坐标 { b ~ , O ~ } \{\tilde{\mathbf{b}}, \tilde{\mathbf{O}}\} {b~,O~} 输入到训练好的网络中,我们可以推断出任意分辨率的高光谱图像,即 E ^ ( b ~ ; θ ∗ ) A ^ ( O ~ ; α ∗ ) \hat{\mathbf{E}}(\tilde{\mathbf{b}}; \theta^*) \hat{\mathbf{A}}(\tilde{\mathbf{O}}; \alpha^*) E^(b~;θ∗)A^(O~;α∗)。
与现有的基于 INR 的融合方法相比,我们的方法具有以下几个显著优势:
- 首先,它通过低秩连续学习表示充分利用了高光谱图像的低秩和平滑先验;
- 其次,通过连续低秩分解显著降低了计算复杂度;
- 第三,通过输入任意尺度的空间和光谱坐标,可以实现用户所需分辨率的任意位置高光谱图像生成。
3.3 Theoretical Analysis
在本节中,我们从理论上证明了低秩性和平滑正则化在连续低秩矩阵分解中是隐式统一的。我们的分析灵感来源于(Luo et al., 2024)中的张量函数分解概念。以下从矩阵计算领域的秩分解开始。
定理 1(秩分解,Piziak & Odell, 1999)
设矩阵
X
∈
R
n
1
×
n
2
\mathbf{X} \in \mathbb{R}^{n_1 \times n_2}
X∈Rn1×n2,且
rank
(
X
)
=
K
\text{rank}(\mathbf{X}) = K
rank(X)=K,则存在两个矩阵
U
∈
R
n
1
×
K
\mathbf{U} \in \mathbb{R}^{n_1 \times K}
U∈Rn1×K 和
V
∈
R
n
2
×
K
\mathbf{V} \in \mathbb{R}^{n_2 \times K}
V∈Rn2×K,使得:
X
=
U
V
T
.
\mathbf{X} = \mathbf{U} \mathbf{V}^T.
X=UVT.
连续表示的高光谱图像
接下来,我们详细介绍所提出的高光谱图像(HSI)的连续表示。设
f
(
⋅
)
:
A
f
×
Z
f
→
R
f(\cdot): \mathcal{A}_f \times \mathcal{Z}_f \rightarrow \mathbb{R}
f(⋅):Af×Zf→R 是一个有界实函数,其中
A
f
⊂
R
2
\mathcal{A}_f \subset \mathbb{R}^2
Af⊂R2 和
Z
f
⊂
R
\mathcal{Z}_f \subset \mathbb{R}
Zf⊂R 分别是空间域和光谱域的定义域。函数
f
f
f 给出了定义域
D
f
:
=
A
f
×
Z
f
\mathcal{D}_f := \mathcal{A}_f \times \mathcal{Z}_f
Df:=Af×Zf 内任意坐标处的数据值。我们将
f
f
f 解释为一个矩阵函数,因为它将空间和光谱坐标映射到相应的值,从而隐式地表示矩阵数据。
定义 1(采样矩阵集)
对于矩阵函数
f
(
⋅
)
:
D
f
→
R
f(\cdot): \mathcal{D}_f \rightarrow \mathbb{R}
f(⋅):Df→R,我们定义其采样矩阵集
S
[
f
]
\mathcal{S}[f]
S[f] 为:
S
[
f
]
:
=
{
M
∣
M
(
i
,
j
)
=
f
(
s
i
,
b
j
)
,
s
i
∈
A
f
,
b
j
∈
Z
f
,
M
∈
R
n
1
×
n
2
,
n
1
,
n
2
∈
N
+
}
,
\mathcal{S}[f] := \{\mathbf{M} \mid \mathbf{M}(i,j) = f(s_i, b_j), s_i \in \mathcal{A}_f, b_j \in \mathcal{Z}_f, \mathbf{M} \in \mathbb{R}^{n_1 \times n_2}, n_1, n_2 \in \mathbb{N}^+\},
S[f]:={M∣M(i,j)=f(si,bj),si∈Af,bj∈Zf,M∈Rn1×n2,n1,n2∈N+},
其中
s
i
s_i
si 和
b
j
b_j
bj 分别表示空间坐标和光谱坐标。
定义 2(矩阵函数秩)
给定矩阵函数
f
:
D
f
=
A
f
×
Z
f
→
R
f: \mathcal{D}_f = \mathcal{A}_f \times \mathcal{Z}_f \rightarrow \mathbb{R}
f:Df=Af×Zf→R,我们定义其复杂度度量,记为
MF-rank
[
f
]
\text{MF-rank}[f]
MF-rank[f](即函数
f
(
⋅
)
f(\cdot)
f(⋅) 的秩),为采样矩阵集
S
[
f
]
\mathcal{S}[f]
S[f] 中矩阵秩的上确界:
MF-rank
[
f
]
:
=
sup
M
∈
S
[
f
]
rank
(
M
)
.
\text{MF-rank}[f] := \sup_{\mathbf{M} \in \mathcal{S}[f]} \text{rank}(\mathbf{M}).
MF-rank[f]:=M∈S[f]suprank(M).
如果
K
≪
min
{
n
1
,
n
2
}
K \ll \min\{n_1, n_2\}
K≪min{n1,n2},我们称矩阵函数
f
(
⋅
)
f(\cdot)
f(⋅) 为低秩矩阵函数。当
f
(
⋅
)
f(\cdot)
f(⋅) 定义在给定矩阵上时,
MF-rank
\text{MF-rank}
MF-rank 将退化为离散情况,即经典的矩阵秩。
命题 2
考虑任意矩阵
X
∈
R
n
1
×
n
2
\mathbf{X} \in \mathbb{R}^{n_1 \times n_2}
X∈Rn1×n2。设
A
f
=
N
(
l
1
)
×
N
(
l
2
)
\mathcal{A}_f = \mathcal{N}(l_1) \times \mathcal{N}(l_2)
Af=N(l1)×N(l2)(其中
l
1
l
2
=
n
1
l_1 l_2 = n_1
l1l2=n1)表示一个二维离散集,
Z
f
=
N
(
n
2
)
\mathcal{Z}_f = \mathcal{N}(n_2)
Zf=N(n2) 是一个一维离散集,其中
N
(
k
)
\mathcal{N}(k)
N(k) 表示集合
{
1
,
2
,
…
,
k
}
\{1, 2, \ldots, k\}
{1,2,…,k}。我们定义
D
f
=
A
f
×
Z
f
\mathcal{D}_f = \mathcal{A}_f \times \mathcal{Z}_f
Df=Af×Zf,并定义矩阵函数
f
(
⋅
)
:
D
f
→
R
f(\cdot): \mathcal{D}_f \rightarrow \mathbb{R}
f(⋅):Df→R 为:
f
(
s
,
b
)
=
X
(
s
,
b
)
,
∀
(
s
,
b
)
∈
D
f
.
f(s, b) = \mathbf{X}(s, b), \quad \forall (s, b) \in \mathcal{D}_f.
f(s,b)=X(s,b),∀(s,b)∈Df.
则 MF-rank [ f ] = rank ( X ) \text{MF-rank}[f] = \text{rank}(\mathbf{X}) MF-rank[f]=rank(X)。
证明:
-
下界证明:
- 由于
X
∈
S
[
f
]
\mathbf{X} \in \mathcal{S}[f]
X∈S[f],即
X
\mathbf{X}
X 是
S
[
f
]
\mathcal{S}[f]
S[f] 中的一个采样矩阵,因此:
MF-rank [ f ] ≥ rank ( X ) . \text{MF-rank}[f] \geq \text{rank}(\mathbf{X}). MF-rank[f]≥rank(X).
- 由于
X
∈
S
[
f
]
\mathbf{X} \in \mathcal{S}[f]
X∈S[f],即
X
\mathbf{X}
X 是
S
[
f
]
\mathcal{S}[f]
S[f] 中的一个采样矩阵,因此:
-
上界证明:
- 设 M \mathbf{M} M 是 S [ f ] \mathcal{S}[f] S[f] 中的任意矩阵。对于 M \mathbf{M} M 的每一列 M ( : , p ) \mathbf{M}(:,p) M(:,p)( p ∈ { 1 , 2 , … , n 2 } p \in \{1, 2, \ldots, n_2\} p∈{1,2,…,n2}),根据 S [ f ] \mathcal{S}[f] S[f] 的定义,存在一个依赖于 p p p 的索引 l p ∈ { 1 , 2 , … , n 1 } l_p \in \{1, 2, \ldots, n_1\} lp∈{1,2,…,n1},使得 M ( : , p ) \mathbf{M}(:,p) M(:,p) 是 X ( : , l p ) \mathbf{X}(:,l_p) X(:,lp) 的一个排列(允许重复采样)。
- 即对于每一列
M
(
:
,
p
)
\mathbf{M}(:,p)
M(:,p),存在一个置换矩阵
P
∈
{
0
,
1
}
n
1
×
n
1
\mathbf{P} \in \{0, 1\}^{n_1 \times n_1}
P∈{0,1}n1×n1 和
X
\mathbf{X}
X 的某一列
X
(
:
,
l
p
)
\mathbf{X}(:,l_p)
X(:,lp),使得:
M ( : , p ) = P X ( : , l p ) . \mathbf{M}(:,p) = \mathbf{P} \mathbf{X}(:,l_p). M(:,p)=PX(:,lp). - 此外,置换矩阵
P
\mathbf{P}
P 对于所有列
M
(
:
,
p
)
\mathbf{M}(:,p)
M(:,p)(
p
=
1
,
2
,
…
,
n
2
p = 1, 2, \ldots, n_2
p=1,2,…,n2)是一致的,即:
M ( : , p ) = P X ( : , l p ) , ∀ p . \mathbf{M}(:,p) = \mathbf{P} \mathbf{X}(:,l_p), \quad \forall p. M(:,p)=PX(:,lp),∀p.
-
构造矩阵 X ~ \tilde{\mathbf{X}} X~:
- 定义矩阵 X ~ : = [ X ( : , l 1 ) , X ( : , l 2 ) , … , X ( : , l n 2 ) ] ∈ R n 1 × n 2 \tilde{\mathbf{X}} := [\mathbf{X}(:,l_1), \mathbf{X}(:,l_2), \ldots, \mathbf{X}(:,l_{n_2})] \in \mathbb{R}^{n_1 \times n_2} X~:=[X(:,l1),X(:,l2),…,X(:,ln2)]∈Rn1×n2。
- 由于
X
~
\tilde{\mathbf{X}}
X~ 的每一列都是
X
\mathbf{X}
X 的某一列的复制或排列,因此:
rank ( X ~ ) ≤ rank ( X ) . \text{rank}(\tilde{\mathbf{X}}) \leq \text{rank}(\mathbf{X}). rank(X~)≤rank(X).
-
矩阵 M \mathbf{M} M 的秩:
- 由于
M
=
P
X
~
\mathbf{M} = \mathbf{P} \tilde{\mathbf{X}}
M=PX~,且
P
\mathbf{P}
P 是置换矩阵(满秩),因此:
rank ( M ) = rank ( X ~ ) ≤ rank ( X ) . \text{rank}(\mathbf{M}) = \text{rank}(\tilde{\mathbf{X}}) \leq \text{rank}(\mathbf{X}). rank(M)=rank(X~)≤rank(X). - 由于
M
\mathbf{M}
M 是
S
[
f
]
\mathcal{S}[f]
S[f] 中的任意矩阵,因此:
MF-rank [ f ] = sup M ∈ S [ f ] rank ( M ) ≤ rank ( X ) . \text{MF-rank}[f] = \sup_{\mathbf{M} \in \mathcal{S}[f]} \text{rank}(\mathbf{M}) \leq \text{rank}(\mathbf{X}). MF-rank[f]=M∈S[f]suprank(M)≤rank(X).
- 由于
M
=
P
X
~
\mathbf{M} = \mathbf{P} \tilde{\mathbf{X}}
M=PX~,且
P
\mathbf{P}
P 是置换矩阵(满秩),因此:
命题 2 将秩的概念从离散矩阵扩展到了矩阵函数的连续表示中。类似于经典的矩阵表示,我们自然会考虑是否可以通过某种矩阵分解策略来编码低秩矩阵函数的低秩性。对此,我们给出了肯定的回答,如下定理所示。
定理 3(连续低秩分解) (continuous low-rank factorization)
设
f
(
⋅
)
:
D
f
=
A
f
×
Z
f
→
R
f(\cdot): \mathcal{D}_f = \mathcal{A}_f \times \mathcal{Z}_f \rightarrow \mathbb{R}
f(⋅):Df=Af×Zf→R 是一个有界矩阵函数,其中
A
f
⊂
R
2
\mathcal{A}_f \subset \mathbb{R}^2
Af⊂R2,
Z
f
⊂
R
\mathcal{Z}_f \subset \mathbb{R}
Zf⊂R。如果
MF-rank
[
f
]
=
K
\text{MF-rank}[f] = K
MF-rank[f]=K,则存在两个函数
f
spatial
(
⋅
)
:
A
f
→
R
K
f_{\text{spatial}}(\cdot): \mathcal{A}_f \rightarrow \mathbb{R}^K
fspatial(⋅):Af→RK 和
f
spectral
(
⋅
)
:
Z
f
→
R
K
f_{\text{spectral}}(\cdot): \mathcal{Z}_f \rightarrow \mathbb{R}^K
fspectral(⋅):Zf→RK,使得对于任意输入对
(
s
,
b
)
∈
D
f
(s, b) \in \mathcal{D}_f
(s,b)∈Df,有:
f
(
s
,
b
)
=
f
spatial
(
s
)
⋅
f
spectral
T
(
b
)
.
f(s, b) = f_{\text{spatial}}(s) \cdot f_{\text{spectral}}^T(b).
f(s,b)=fspatial(s)⋅fspectralT(b).
证明:
我们首先为每个因子函数 f ( s , b ) f(s, b) f(s,b) 建立一个线性表示,然后展示连续低秩分解如何保持矩阵分解秩(MF-rank)。
- 线性表示的建立
假设 MF-rank [ f ] = K \text{MF-rank}[f] = K MF-rank[f]=K( K < ∞ K < \infty K<∞),则存在一个矩阵 M ∈ R n 1 × K \mathbf{M} \in \mathbb{R}^{n_1 \times K} M∈Rn1×K,且 rank ( M ) = K \text{rank}(\mathbf{M}) = K rank(M)=K。定义:
- 空间坐标集 S = { s i ∣ M i , j = f ( s i , b j ) , i = 1 , … , n 1 } S = \{s_i \mid \mathbf{M}_{i,j} = f(s_i, b_j), i = 1, \ldots, n_1\} S={si∣Mi,j=f(si,bj),i=1,…,n1},
- 光谱坐标集 T = { b j ∣ M i , j = f ( s i , b j ) , j = 1 , … , K } T = \{b_j \mid \mathbf{M}_{i,j} = f(s_i, b_j), j = 1, \ldots, K\} T={bj∣Mi,j=f(si,bj),j=1,…,K}。
显然,
{
M
(
:
,
i
)
}
i
=
1
K
\{\mathbf{M}(:,i)\}_{i=1}^K
{M(:,i)}i=1K 是采样矩阵集
S
[
f
]
\mathcal{S}[f]
S[f] 的列基。对于任意矩阵
U
∈
R
n
1
×
n
2
\mathbf{U} \in \mathbb{R}^{n_1 \times n_2}
U∈Rn1×n2(
n
2
≥
K
n_2 \geq K
n2≥K),其中
U
(
i
,
j
)
=
f
(
s
i
,
b
j
)
\mathbf{U}(i,j) = f(s_i, b_j)
U(i,j)=f(si,bj)(
s
i
∈
S
,
b
j
∈
Z
f
s_i \in S, b_j \in \mathcal{Z}_f
si∈S,bj∈Zf),我们有
U
∈
S
[
f
]
\mathbf{U} \in \mathcal{S}[f]
U∈S[f] 且
rank
(
U
)
≤
K
\text{rank}(\mathbf{U}) \leq K
rank(U)≤K。此外,
U
\mathbf{U}
U 的每一列都是列基
{
M
(
:
,
i
)
}
i
=
1
K
\{\mathbf{M}(:,i)\}_{i=1}^K
{M(:,i)}i=1K 的线性组合:
U
(
:
,
j
)
=
∑
k
=
1
K
c
k
(
b
j
)
M
(
:
,
k
)
,
j
=
1
,
2
,
…
,
n
2
.
(
B
1
)
\mathbf{U}(:,j) = \sum_{k=1}^K c_k^{(b_j)} \mathbf{M}(:,k), \quad j = 1, 2, \ldots, n_2. \quad (B1)
U(:,j)=k=1∑Kck(bj)M(:,k),j=1,2,…,n2.(B1)
利用式 (B1),我们可以将
f
(
s
,
b
)
f(s, b)
f(s,b) 重写为:
f
(
s
,
b
)
=
∑
k
=
1
K
c
k
(
b
)
M
(
i
,
k
)
=
∑
k
=
1
K
c
k
(
b
)
f
(
s
,
b
k
)
,
(
B
2
)
f(s, b) = \sum_{k=1}^K c_k^{(b)} \mathbf{M}(i,k) = \sum_{k=1}^K c_k^{(b)} f(s, b_k), \quad (B2)
f(s,b)=k=1∑Kck(b)M(i,k)=k=1∑Kck(b)f(s,bk),(B2)
其中
c
(
b
)
=
[
c
1
(
b
)
,
c
2
(
b
)
,
…
,
c
K
(
b
)
]
c^{(b)} = [c_1^{(b)}, c_2^{(b)}, \ldots, c_K^{(b)}]
c(b)=[c1(b),c2(b),…,cK(b)],且
s
∈
S
,
b
∈
Z
f
s \in S, b \in \mathcal{Z}_f
s∈S,b∈Zf。
- 从
s
∈
S
s \in S
s∈S 推广到
s
∈
A
f
s \in \mathcal{A}_f
s∈Af
接下来,我们将上述结论从 s ∈ S s \in S s∈S 推广到任意 s ∈ A f s \in \mathcal{A}_f s∈Af。给定 s ~ ∈ A f ∖ S \tilde{s} \in \mathcal{A}_f \setminus S s~∈Af∖S,我们构造一个矩阵 T ∈ R ( n 1 + 1 ) × n 2 \mathbf{T} \in \mathbb{R}^{(n_1+1) \times n_2} T∈R(n1+1)×n2,其中:
T ( i , j ) = f ( s i , b j ) , s i ∈ S 对于 i = 1 , 2 , … , n 1 , s n 1 + 1 = s ~ . \mathbf{T}(i,j) = f(s_i, b_j), \quad s_i \in S \text{ 对于 } i = 1, 2, \ldots, n_1, \quad s_{n_1+1} = \tilde{s}. T(i,j)=f(si,bj),si∈S 对于 i=1,2,…,n1,sn1+1=s~.
假设存在 K K K 个列向量 { T ( : , j k ) } k = 1 K \{\mathbf{T}(:,j_k)\}_{k=1}^K {T(:,jk)}k=1K,使得:
T ( 1 : n 1 , j k ) = M ( : , k ) , k = 1 , 2 , … , K . \mathbf{T}(1:n_1, j_k) = \mathbf{M}(:,k), \quad k = 1, 2, \ldots, K. T(1:n1,jk)=M(:,k),k=1,2,…,K.
因此, rank ( T ) = K \text{rank}(\mathbf{T}) = K rank(T)=K,且对于 j = 1 , 2 , … , n 2 j = 1, 2, \ldots, n_2 j=1,2,…,n2,有:
T ( : , j ) = ∑ k = 1 K d k ( b j ) T ( : , j k ) , T ( 1 : n 1 , j ) = ∑ k = 1 K c k ( b j ) M ( : , k ) . \mathbf{T}(:,j) = \sum_{k=1}^K d_k^{(b_j)} \mathbf{T}(:,j_k),\\ \mathbf{T}(1:n_1, j) = \sum_{k=1}^K c_k^{(b_j)} \mathbf{M}(:,k). T(:,j)=k=1∑Kdk(bj)T(:,jk),T(1:n1,j)=k=1∑Kck(bj)M(:,k).
由于系数向量的唯一性,我们有 d ( b j ) = c ( b j ) d^{(b_j)} = c^{(b_j)} d(bj)=c(bj)。因此:
T ( n 1 + 1 , j ) = ∑ k = 1 K c k ( b j ) T ( n 1 + 1 , k ) , ( B 3 ) \mathbf{T}(n_1+1, j) = \sum_{k=1}^K c_k^{(b_j)} \mathbf{T}(n_1+1, k), \quad (B3) T(n1+1,j)=k=1∑Kck(bj)T(n1+1,k),(B3)
即:
f ( s ~ , b ) = ∑ k = 1 K c k ( b ) f ( s ~ , b k ) , ∀ s ~ ∈ A f ∖ S . f(\tilde{s}, b) = \sum_{k=1}^K c_k^{(b)} f(\tilde{s}, b_k), \quad \forall \tilde{s} \in \mathcal{A}_f \setminus S. f(s~,b)=k=1∑Kck(b)f(s~,bk),∀s~∈Af∖S.
这表明,对于任意 s ~ ∈ A f ∖ S \tilde{s} \in \mathcal{A}_f \setminus S s~∈Af∖S, f ( s ~ , b ) f(\tilde{s}, b) f(s~,b) 可以用基函数 f ( s ~ , b k ) f(\tilde{s}, b_k) f(s~,bk)( b k ∈ T b_k \in T bk∈T)线性表示。
- 定义因子函数
我们定义空间因子函数 f spatial ( ⋅ ) : A f → R K f_{\text{spatial}}(\cdot): \mathcal{A}_f \rightarrow \mathbb{R}^K fspatial(⋅):Af→RK 为:
f spatial ( s ~ ) : = [ f ( s ~ , b 1 ) , f ( s ~ , b 2 ) , … , f ( s ~ , b K ) ] T . f_{\text{spatial}}(\tilde{s}) := [f(\tilde{s}, b_1), f(\tilde{s}, b_2), \ldots, f(\tilde{s}, b_K)]^T. fspatial(s~):=[f(s~,b1),f(s~,b2),…,f(s~,bK)]T.
同时,定义矩阵函数 h ( ⋅ ) : N ( K ) × Z f → R h(\cdot): \mathcal{N}(K) \times \mathcal{Z}_f \rightarrow \mathbb{R} h(⋅):N(K)×Zf→R 为:
h ( i , b ) : = c i ( b ) , h(i, b) := c_i^{(b)}, h(i,b):=ci(b),
其中 N ( K ) = { 1 , 2 , … , K } \mathcal{N}(K) = \{1, 2, \ldots, K\} N(K)={1,2,…,K}。根据上述分析,对于任意 ( s , b ) ∈ D f = A f × Z f (s, b) \in \mathcal{D}_f = \mathcal{A}_f \times \mathcal{Z}_f (s,b)∈Df=Af×Zf,有:
f ( s , b ) = ∑ k = 1 K h ( k , b ) ( f spatial ( s ) ) ( k ) . ( B 4 ) f(s, b) = \sum_{k=1}^K h(k, b) (f_{\text{spatial}}(s))(k). \quad (B4) f(s,b)=k=1∑Kh(k,b)(fspatial(s))(k).(B4)
定义光谱因子函数 f spectral ( ⋅ ) : Z f → R K f_{\text{spectral}}(\cdot): \mathcal{Z}_f \rightarrow \mathbb{R}^K fspectral(⋅):Zf→RK 为:
f spectral ( b ) : = [ h ( 1 , b ) , h ( 2 , b ) , … , h ( K , b ) ] T ∈ R K × 1 , f_{\text{spectral}}(b) := [h(1, b), h(2, b), \ldots, h(K, b)]^T \in \mathbb{R}^{K \times 1}, fspectral(b):=[h(1,b),h(2,b),…,h(K,b)]T∈RK×1,
则式 (B4) 可以重写为:
f ( s , b ) = f spatial ( s ) ⋅ f spectral T ( b ) . ( B 5 ) f(s, b) = f_{\text{spatial}}(s) \cdot f_{\text{spectral}}^T(b). \quad (B5) f(s,b)=fspatial(s)⋅fspectralT(b).(B5)
定理 3 是秩分解(定理 1)从离散网格到连续域的自然扩展。具体来说,我们使用两个多层感知机(MLP) Φ α ( ⋅ ) \Phi_\alpha(\cdot) Φα(⋅) 和 Ψ θ ( ⋅ ) \Psi_\theta(\cdot) Ψθ(⋅)(参数分别为 θ \theta θ 和 α \alpha α)来参数化因子函数 f spatial ( ⋅ ) f_{\text{spatial}}(\cdot) fspatial(⋅) 和 f spectral ( ⋅ ) f_{\text{spectral}}(\cdot) fspectral(⋅)。
Remark 1
-
低秩分解的非唯一性:在定理 1 中,低秩矩阵分解一定存在,但不是唯一的。这是因为奇异值分解(SVD)中特征向量的表示不唯一,从而导致分解中的 U \mathbf{U} U 和 U ′ \mathbf{U}' U′ 以及 V \mathbf{V} V 和 V ′ \mathbf{V}' V′ 不同,例如 U ′ = c U \mathbf{U}' = c \mathbf{U} U′=cU 和 V ′ = V / c \mathbf{V}' = \mathbf{V} / c V′=V/c,其中 c c c 是一个非零标量。
-
CLoRF 的网络结构:CLoRF 由两个结构相同的子网络组成:空间 INR(Spatial-INR) 和 光谱 INR(Spectral-INR)。该网络框架通过低秩和平滑先验,学习生成光谱字典和空间系数矩阵,从而通过网络训练实现高光谱图像的低秩表示。空间基和光谱基的解空间受到 INR 参数的约束。此外,通过在损失函数中加入总变差(TV)先验,进一步限制了空间系数矩阵的解空间,有效减少了低秩分解中的歧义性。
- 命题 2 将矩阵秩的概念从离散矩阵扩展到连续矩阵函数,证明了矩阵函数的秩与其离散采样矩阵的秩一致。
- 定理 3 提出了连续低秩分解的理论框架,证明了低秩矩阵函数可以通过空间和光谱两个因子函数的乘积来表示。
- 备注 1 讨论了低秩分解的非唯一性,并介绍了 CLoRF 的网络结构及其如何通过 INR 和 TV 先验约束解空间,从而实现高效的低秩表示。
平滑性是高光谱图像(HSI)的另一个普遍属性,例如空间和光谱平滑性(Sun et al., 2021)。在这里,我们从理论上验证了我们的方法通过多层感知机(MLP)的特定结构隐式地引入了平滑正则化。
定理 4(Lipschitz 连续性)
设
X
∈
R
n
1
×
n
2
\mathbf{X} \in \mathbb{R}^{n_1 \times n_2}
X∈Rn1×n2,且
Φ
α
(
⋅
)
:
A
f
→
R
K
\Phi_\alpha(\cdot): \mathcal{A}_f \rightarrow \mathbb{R}^K
Φα(⋅):Af→RK 和
Ψ
θ
(
⋅
)
:
D
f
→
R
K
\Psi_\theta(\cdot): \mathcal{D}_f \rightarrow \mathbb{R}^K
Ψθ(⋅):Df→RK 是两个具有参数
α
\alpha
α 和
θ
\theta
θ 的 MLP,其中
A
f
⊂
R
2
\mathcal{A}_f \subset \mathbb{R}^2
Af⊂R2 和
Z
f
⊂
R
\mathcal{Z}_f \subset \mathbb{R}
Zf⊂R 是有界的,即对于任意
s
∈
A
f
s \in \mathcal{A}_f
s∈Af 和
b
∈
Z
f
b \in \mathcal{Z}_f
b∈Zf,有
∥
s
∥
1
≤
ζ
\|s\|_1 \leq \zeta
∥s∥1≤ζ 和
∣
b
∣
≤
ζ
|b| \leq \zeta
∣b∣≤ζ。假设 MLP 共享相同的激活函数
σ
(
⋅
)
\sigma(\cdot)
σ(⋅) 和深度
d
d
d,且
c
1
i
=
c
2
i
=
0
c_{1i} = c_{2i} = 0
c1i=c2i=0(
∀
i
\forall i
∀i)。此外,我们假设:
- σ \sigma σ 是 Lipschitz 连续的,Lipschitz 常数为 κ \kappa κ,且 σ ( 0 ) = 0 \sigma(0) = 0 σ(0)=0;
- ∥ W i 1 ∥ 1 \|\mathbf{W}_{i1}\|_1 ∥Wi1∥1 和 ∥ W i 2 ∥ 1 \|\mathbf{W}_{i2}\|_1 ∥Wi2∥1 对所有 i i i 都被一个正常数 η \eta η 所限制。
定义矩阵函数
f
(
⋅
)
:
D
f
=
A
f
×
Z
f
→
R
f(\cdot): \mathcal{D}_f = \mathcal{A}_f \times \mathcal{Z}_f \rightarrow \mathbb{R}
f(⋅):Df=Af×Zf→R 为:
f
(
s
,
b
)
=
Φ
α
(
s
)
⋅
Ψ
θ
(
b
)
T
.
f(s, b) = \Phi_\alpha(s) \cdot \Psi_\theta(b)^T.
f(s,b)=Φα(s)⋅Ψθ(b)T.
那么,对于任意
(
s
1
,
b
1
)
,
(
s
2
,
b
2
)
∈
D
f
(s_1, b_1), (s_2, b_2) \in \mathcal{D}_f
(s1,b1),(s2,b2)∈Df,以下不等式成立:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
δ
∥
s
1
−
s
2
∥
1
+
δ
∣
b
1
−
b
2
∣
,
|f(s_1, b_1) - f(s_2, b_2)| \leq \delta \|s_1 - s_2\|_1 + \delta |b_1 - b_2|,
∣f(s1,b1)−f(s2,b2)∣≤δ∥s1−s2∥1+δ∣b1−b2∣,
其中
δ
=
η
2
d
+
1
κ
2
d
−
2
ζ
\delta = \eta^{2d+1} \kappa^{2d-2} \zeta
δ=η2d+1κ2d−2ζ,且
ζ
=
max
{
∥
s
1
∥
1
,
∣
b
1
∣
}
\zeta = \max\{\|s_1\|_1, |b_1|\}
ζ=max{∥s1∥1,∣b1∣}。
证明:
首先将
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
|f(s_1, b_1) - f(s_2, b_2)|
∣f(s1,b1)−f(s2,b2)∣ 分解为两部分:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
+
∣
f
(
s
2
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
.
|f(s_1, b_1) - f(s_2, b_2)| \leq |f(s_1, b_1) - f(s_2, b_1)| + |f(s_2, b_1) - f(s_2, b_2)|.
∣f(s1,b1)−f(s2,b2)∣≤∣f(s1,b1)−f(s2,b1)∣+∣f(s2,b1)−f(s2,b2)∣.
考虑第一部分:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
=
∣
Φ
α
(
s
1
)
⋅
Ψ
θ
(
b
1
)
T
−
Φ
α
(
s
2
)
⋅
Ψ
θ
(
b
1
)
T
∣
.
|f(s_1, b_1) - f(s_2, b_1)| = |\Phi_\alpha(s_1) \cdot \Psi_\theta(b_1)^T - \Phi_\alpha(s_2) \cdot \Psi_\theta(b_1)^T|.
∣f(s1,b1)−f(s2,b1)∣=∣Φα(s1)⋅Ψθ(b1)T−Φα(s2)⋅Ψθ(b1)T∣.
利用内积的性质,可以将其表示为:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
=
∣
(
Φ
α
(
s
1
)
−
Φ
α
(
s
2
)
)
⋅
Ψ
θ
(
b
1
)
T
∣
.
|f(s_1, b_1) - f(s_2, b_1)| = |(\Phi_\alpha(s_1) - \Phi_\alpha(s_2)) \cdot \Psi_\theta(b_1)^T|.
∣f(s1,b1)−f(s2,b1)∣=∣(Φα(s1)−Φα(s2))⋅Ψθ(b1)T∣.
根据 Cauchy-Schwarz 不等式,有:
∣
(
Φ
α
(
s
1
)
−
Φ
α
(
s
2
)
)
⋅
Ψ
θ
(
b
1
)
T
∣
≤
∥
Φ
α
(
s
1
)
−
Φ
α
(
s
2
)
∥
1
⋅
∥
Ψ
θ
(
b
1
)
∥
1
.
(
C
6
)
|(\Phi_\alpha(s_1) - \Phi_\alpha(s_2)) \cdot \Psi_\theta(b_1)^T| \leq \|\Phi_\alpha(s_1) - \Phi_\alpha(s_2)\|_1 \cdot \|\Psi_\theta(b_1)\|_1. \quad (C6)
∣(Φα(s1)−Φα(s2))⋅Ψθ(b1)T∣≤∥Φα(s1)−Φα(s2)∥1⋅∥Ψθ(b1)∥1.(C6)
假设激活函数
σ
(
⋅
)
\sigma(\cdot)
σ(⋅) 是 Lipschitz 连续的,即对于任意
x
,
y
x, y
x,y,有:
∣
σ
(
x
)
−
σ
(
y
)
∣
≤
κ
∣
x
−
y
∣
.
|\sigma(x) - \sigma(y)| \leq \kappa |x - y|.
∣σ(x)−σ(y)∣≤κ∣x−y∣.
特别地,当
y
=
0
y = 0
y=0 时,由于
σ
(
0
)
=
0
\sigma(0) = 0
σ(0)=0,有:
∣
σ
(
x
)
∣
≤
κ
∣
x
∣
.
|\sigma(x)| \leq \kappa |x|.
∣σ(x)∣≤κ∣x∣.
定义
ψ
(
1
)
(
b
)
=
W
11
b
\psi^{(1)}(b) = \mathbf{W}_{11} b
ψ(1)(b)=W11b,以及:
ψ
(
k
)
(
b
)
=
W
1
k
σ
(
ψ
(
k
−
1
)
(
b
)
)
,
k
=
2
,
…
,
d
.
\psi^{(k)}(b) = \mathbf{W}_{1k} \sigma(\psi^{(k-1)}(b)), \quad k = 2, \ldots, d.
ψ(k)(b)=W1kσ(ψ(k−1)(b)),k=2,…,d.
假设权重矩阵的 1-范数
∥
W
i
1
∥
1
\|\mathbf{W}_{i1}\|_1
∥Wi1∥1 和
∥
W
i
2
∥
1
\|\mathbf{W}_{i2}\|_1
∥Wi2∥1 对所有
i
i
i 都被一个正常数
η
\eta
η 所限制。因此,对于
Ψ
θ
(
b
)
\Psi_\theta(b)
Ψθ(b),有:
∥
Ψ
θ
(
b
)
∥
1
=
∥
ψ
(
d
)
(
b
)
∥
1
≤
∥
W
1
d
∥
1
∥
σ
(
ψ
(
d
−
1
)
(
b
)
)
∥
1
≤
η
κ
∥
ψ
(
d
−
1
)
(
b
)
∥
1
≤
η
d
κ
d
−
1
∣
b
∣
.
(
C
7
)
\|\Psi_\theta(b)\|_1 = \|\psi^{(d)}(b)\|_1 \leq \|\mathbf{W}_{1d}\|_1 \|\sigma(\psi^{(d-1)}(b))\|_1 \leq \eta \kappa \|\psi^{(d-1)}(b)\|_1 \leq \eta^d \kappa^{d-1} |b|. \quad (C7)
∥Ψθ(b)∥1=∥ψ(d)(b)∥1≤∥W1d∥1∥σ(ψ(d−1)(b))∥1≤ηκ∥ψ(d−1)(b)∥1≤ηdκd−1∣b∣.(C7)
定义
ϕ
(
1
)
(
s
)
=
W
21
s
\phi^{(1)}(s) = \mathbf{W}_{21} s
ϕ(1)(s)=W21s,以及:
ϕ
(
k
)
(
s
)
=
W
2
k
σ
(
ϕ
(
k
−
1
)
(
s
)
)
,
k
=
2
,
…
,
d
.
\phi^{(k)}(s) = \mathbf{W}_{2k} \sigma(\phi^{(k-1)}(s)), \quad k = 2, \ldots, d.
ϕ(k)(s)=W2kσ(ϕ(k−1)(s)),k=2,…,d.
对于
Φ
α
(
s
1
)
−
Φ
α
(
s
2
)
\Phi_\alpha(s_1) - \Phi_\alpha(s_2)
Φα(s1)−Φα(s2),有:
∥
Φ
α
(
s
1
)
−
Φ
α
(
s
2
)
∥
1
=
∥
ϕ
(
d
)
(
s
1
)
−
ϕ
(
d
)
(
s
2
)
∥
1
.
\|\Phi_\alpha(s_1) - \Phi_\alpha(s_2)\|_1 = \|\phi^{(d)}(s_1) - \phi^{(d)}(s_2)\|_1.
∥Φα(s1)−Φα(s2)∥1=∥ϕ(d)(s1)−ϕ(d)(s2)∥1.
利用 Lipschitz 连续性和权重矩阵的范数限制,可以得到:
∥
ϕ
(
d
)
(
s
1
)
−
ϕ
(
d
)
(
s
2
)
∥
1
≤
η
κ
∥
ϕ
(
d
−
1
)
(
s
1
)
−
ϕ
(
d
−
1
)
(
s
2
)
∥
1
≤
η
d
κ
d
−
1
∥
s
1
−
s
2
∥
1
.
(
C
8
)
\|\phi^{(d)}(s_1) - \phi^{(d)}(s_2)\|_1 \leq \eta \kappa \|\phi^{(d-1)}(s_1) - \phi^{(d-1)}(s_2)\|_1 \leq \eta^d \kappa^{d-1} \|s_1 - s_2\|_1. \quad (C8)
∥ϕ(d)(s1)−ϕ(d)(s2)∥1≤ηκ∥ϕ(d−1)(s1)−ϕ(d−1)(s2)∥1≤ηdκd−1∥s1−s2∥1.(C8)
将式 (C7) 和式 (C8) 代入式 (C6),得到:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
≤
η
d
κ
d
−
1
∥
s
1
−
s
2
∥
1
⋅
η
d
κ
d
−
1
∣
b
1
∣
=
η
2
d
κ
2
d
−
2
∣
b
1
∣
∥
s
1
−
s
2
∥
1
.
|f(s_1, b_1) - f(s_2, b_1)| \leq \eta^d \kappa^{d-1} \|s_1 - s_2\|_1 \cdot \eta^d \kappa^{d-1} |b_1| = \eta^{2d} \kappa^{2d-2} |b_1| \|s_1 - s_2\|_1.
∣f(s1,b1)−f(s2,b1)∣≤ηdκd−1∥s1−s2∥1⋅ηdκd−1∣b1∣=η2dκ2d−2∣b1∣∥s1−s2∥1.
由于
∣
b
1
∣
≤
ζ
|b_1| \leq \zeta
∣b1∣≤ζ,因此:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
≤
η
2
d
κ
2
d
−
2
ζ
∥
s
1
−
s
2
∥
1
.
(
C
9
)
|f(s_1, b_1) - f(s_2, b_1)| \leq \eta^{2d} \kappa^{2d-2} \zeta \|s_1 - s_2\|_1. \quad (C9)
∣f(s1,b1)−f(s2,b1)∣≤η2dκ2d−2ζ∥s1−s2∥1.(C9)
类似地可以证明:
∣
f
(
s
2
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
η
2
d
κ
2
d
−
2
ζ
∣
b
1
−
b
2
∣
.
|f(s_2, b_1) - f(s_2, b_2)| \leq \eta^{2d} \kappa^{2d-2} \zeta |b_1 - b_2|.
∣f(s2,b1)−f(s2,b2)∣≤η2dκ2d−2ζ∣b1−b2∣.
将两部分结合起来,得到:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
1
)
∣
+
∣
f
(
s
2
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
η
2
d
κ
2
d
−
2
ζ
∥
s
1
−
s
2
∥
1
+
η
2
d
κ
2
d
−
2
ζ
∣
b
1
−
b
2
∣
.
|f(s_1, b_1) - f(s_2, b_2)| \leq |f(s_1, b_1) - f(s_2, b_1)| + |f(s_2, b_1) - f(s_2, b_2)| \leq \eta^{2d} \kappa^{2d-2} \zeta \|s_1 - s_2\|_1 + \eta^{2d} \kappa^{2d-2} \zeta |b_1 - b_2|.
∣f(s1,b1)−f(s2,b2)∣≤∣f(s1,b1)−f(s2,b1)∣+∣f(s2,b1)−f(s2,b2)∣≤η2dκ2d−2ζ∥s1−s2∥1+η2dκ2d−2ζ∣b1−b2∣.
令
δ
=
η
2
d
+
1
κ
2
d
−
2
ζ
\delta = \eta^{2d+1} \kappa^{2d-2} \zeta
δ=η2d+1κ2d−2ζ,则:
∣
f
(
s
1
,
b
1
)
−
f
(
s
2
,
b
2
)
∣
≤
δ
∥
s
1
−
s
2
∥
1
+
δ
∣
b
1
−
b
2
∣
.
|f(s_1, b_1) - f(s_2, b_2)| \leq \delta \|s_1 - s_2\|_1 + \delta |b_1 - b_2|.
∣f(s1,b1)−f(s2,b2)∣≤δ∥s1−s2∥1+δ∣b1−b2∣.
这种平滑性在非线性激活函数和权重矩阵的温和假设下隐式地编码,这些假设在实际实现中很容易满足。例如,我们使用了正弦激活函数,同时确保 MLP 网络中的权重有界(Sitzmann et al., 2020)。
备注 2
在定理 4 中,我们观察到平滑度
δ
\delta
δ 与 Lipschitz 常数
κ
\kappa
κ 和权重矩阵的上界
η
\eta
η 相关。因此,在实践中可以通过调整以下两个变量来实现隐式平滑性的平衡:
-
激活函数的选择:
- 我们使用正弦函数 σ ( ⋅ ) = sin ( ω 0 ⋅ ) \sigma(\cdot) = \sin(\omega_0 \cdot) σ(⋅)=sin(ω0⋅) 作为 MLP 的非线性激活函数。
- 由于正弦函数是 Lipschitz 连续的,我们可以通过调整 ω 0 \omega_0 ω0 的值来有效控制其 Lipschitz 常数 κ \kappa κ。具体来说,较小的 ω 0 \omega_0 ω0 会导致较小的 κ \kappa κ,从而产生更平滑的结果。
-
权重矩阵的上界控制:
- 我们可以通过调整 MLP 权重的能量正则化(通常称为权重衰减)来控制权重矩阵的上界 η \eta η。
- 这种方法允许我们控制 η \eta η 的强度。
备注 3
假设定理 4 中的假设成立。我们定义
f
(
⋅
)
:
=
[
Φ
α
,
Ψ
θ
]
(
⋅
)
f(\cdot) := [\Phi_\alpha, \Psi_\theta](\cdot)
f(⋅):=[Φα,Ψθ](⋅)。那么,对于任意使用坐标向量
s
∈
A
f
s \in \mathcal{A}_f
s∈Af 和
t
∈
Z
f
t \in \mathcal{Z}_f
t∈Zf 采样的矩阵
M
∈
S
[
f
]
\mathbf{M} \in \mathcal{S}[f]
M∈S[f](其中
S
[
f
]
\mathcal{S}[f]
S[f] 是矩阵函数
f
(
⋅
)
f(\cdot)
f(⋅) 的采样矩阵集,如定义 1 中所定义),以下不等式对于
(
i
,
j
)
(i, j)
(i,j)(
i
=
1
,
2
,
…
,
n
1
i = 1, 2, \ldots, n_1
i=1,2,…,n1,
j
=
1
,
2
,
…
,
n
2
j = 1, 2, \ldots, n_2
j=1,2,…,n2)成立:
∣
M
(
s
i
,
t
j
)
−
M
(
s
i
−
1
,
t
j
−
1
)
∣
≤
δ
∥
s
i
−
s
i
−
1
∥
1
+
δ
∣
t
j
−
t
j
−
1
∣
,
(
8
)
|\mathbf{M}(s_i, t_j) - \mathbf{M}(s_{i-1}, t_{j-1})| \leq \delta \|s_i - s_{i-1}\|_1 + \delta |t_j - t_{j-1}|, \quad (8)
∣M(si,tj)−M(si−1,tj−1)∣≤δ∥si−si−1∥1+δ∣tj−tj−1∣,(8)
其中 δ = η 2 d + 1 κ 2 d − 2 ζ \delta = \eta^{2d+1} \kappa^{2d-2} \zeta δ=η2d+1κ2d−2ζ,且 ζ = max { ∥ s 1 ∥ 1 , ∣ b 1 ∣ } \zeta = \max\{\|s_1\|_1, |b_1|\} ζ=max{∥s1∥1,∣b1∣}。
备注 3 表明,对于任意采样矩阵 M ∈ S [ f ] \mathbf{M} \in \mathcal{S}[f] M∈S[f],相邻元素之间的差异受到对应坐标之间距离的限制,并包含一个常数因子 δ \delta δ。