当前位置：首页 > article >正文

一个交替优化问题的求解（续）

article 2025/2/22 2:52:11

优化问题

当 $W$ , $b$ , $Y$ 固定时，原优化问题的目标函数变为：

$\min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2$

我们需要通过对 $Z$ 求导并设导数为 0 来求解 $Z$ 的最优值。

第一项的展开

$\lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right)$
这里的 $\mathbf{1}\mathbf{1}^T$ 是一个 $\times n$ 的矩阵， $\mathbf{1}$ 是全 1 的列向量。 $\mathrm{tr}(A)$ 是矩阵 $A$ 的迹（对角线元素之和）。

由于 $\mathrm{tr}(A)$ 的性质 $\mathrm{tr}(AB) = \mathrm{tr}(BA)$ ，这一项也可以写为：

$\lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) = \lambda \|Z^T\mathbf{1}\|_2^2$

因此，这一项实际上对 $Z$ 的优化作用是增加某种行与列的相互依赖性。

第二项的展开

$\frac{\mu}{2} \|Y - Z + \frac{1}{\mu}\Lambda\|_F^2$

展开平方：

$\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \|Y\|_F^2 - 2\langle Y, Z \rangle + \|Z\|_F^2 + 2\langle Y, \frac{1}{\mu}\Lambda \rangle - 2\langle Z, \frac{1}{\mu}\Lambda \rangle + \|\frac{1}{\mu}\Lambda\|_F^2$

由于我们最终只关心 $Z$ ，可以将与 $Z$ 无关的常数项略去。于是，该项可以化简为：

$\frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \frac{\mu}{2}\|Z\|_F^2 - \mu\langle Z, Y \rangle + \langle Z, \Lambda \rangle + \text{const.}$

目标函数的组合

将两部分结合，目标函数可以写为：

$\min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2} \|Z\|_F^2 - \mu \langle Z, Y \rangle + \langle Z, \Lambda \rangle$

展开 $\lambda$ 的部分后，我们有：

$\min_Z \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) + \frac{\mu}{2} \mathrm{tr}(Z^TZ) - \mu \mathrm{tr}(Z^TY) + \mathrm{tr}(Z^T\Lambda)$

对 $Z$ 求导

我们需要对 $Z$ 求导，并设置导数为 0。

梯度规则

对于二次项 $\frac{\mu}{2} \mathrm{tr}(Z^TZ)$ ，梯度为：
$\nabla_Z \frac{\mu}{2} \mathrm{tr}(Z^TZ) = \mu Z$
对于 $\lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ)$ ，使用 $\mathrm{tr}(ABA^T) = \mathrm{tr}(A^TAB)$ 和对称性，梯度为：
$\nabla_Z \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) = 2\lambda \mathbf{1}\mathbf{1}^TZ$
对于线性项 $-\mu \mathrm{tr}(Z^TY)$ 和 $\mathrm{tr}(Z^T\Lambda)$ ，梯度分别为：
$\nabla_Z \left(-\mu \mathrm{tr}(Z^TY)\right) = -\mu Y$
$\nabla_Z \mathrm{tr}(Z^T\Lambda) = \Lambda$