当前位置：首页 > article >正文

【损失函数_模型结构与前向传播的数学建模】

article 2025/3/6 15:19:43

在深度学习中，通过目标函数（如结合Sigmoid激活函数的交叉熵损失）训练模型的过程，本质上是通过梯度反向传播对参数进行迭代优化的数学过程。以下从数学原理、计算步骤和动态行为三个层面深入剖析其工作机制：

一、模型结构与前向传播的数学建模

以二分类任务为例，考虑单层神经网络（逻辑回归）的简化模型：

输入向量：( x \in \mathbb{R}^d )
权重参数：( w \in \mathbb{R}^d )，( b \in \mathbb{R} )
线性变换：( z = w^T x + b )
Sigmoid激活：
$\sigma(z) = \frac{1}{1 + e^{-z}} \in (0,1)$
输出( a )表示样本属于正类的概率。
目标函数（交叉熵损失）：
$\log(a) - (1-y)\log(1-a)$
其中( y \in {0,1} )为真实标签。

二、反向传播的数学推导

训练目标是找到使( L(w,b) )最小的参数( w^* )、( b^* )，通过链式法则计算梯度：

步骤1：计算损失对输出的梯度

$\frac{\partial L}{\partial a} = -\frac{y}{a} + \frac{1-y}{1-a}$

步骤2：计算Sigmoid的导数

$\frac{\partial a}{\partial z} = \sigma(z)(1-\sigma(z)) = a(1-a)$

步骤3：链式法则合成梯度

$\frac{\partial L}{\partial z} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} = (-y/a + (1-y)/(1-a)) \cdot a(1-a) = a - y$

步骤4：计算参数梯度

$\frac{\partial L}{\partial w_j} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w_j} = (a - y)x_j \\ \frac{\partial L}{\partial b} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial b} = a - y$

三、参数更新的动力学过程

使用梯度下降法更新参数：

学习率：( \eta > 0 )
权重更新：
$w_j^{(t+1)} = w_j^{(t)} - \eta \cdot \frac{\partial L}{\partial w_j} = w_j^{(t)} - \eta(a - y)x_j$
偏置更新：
$b^{(t+1)} = b^{(t)} - \eta \cdot \frac{\partial L}{\partial b} = b^{(t)} - \eta(a - y)$

四、数学本质：凸优化视角

对于逻辑回归模型，其损失函数具有严格凸性：

Hessian矩阵正定性：
$\frac{\partial^2 L}{\partial w \partial w^T} = \sum_{i=1}^N a_i(1-a_i)x_i x_i^T$
由于( a_i(1-a_i) > 0 )，当数据线性可分时，( H )正定，保证存在唯一全局最小值。
收敛性证明：
在凸函数条件下，梯度下降以( O(1/t) )速率收敛：
$L(w^{(t)}) - L(w^*) \leq \frac{\|w^{(0)} - w^*\|^2}{2\eta t}$

五、深度网络的扩展分析

对于多层神经网络（以2层网络为例），反向传播需要更复杂的链式法则：

网络结构：

输入层：( x \in \mathbb{R}^{d} )
隐藏层：( h = \sigma(W_1 x + b_1) )
输出层：( a = \sigma(W_2 h + b_2) )

梯度计算：

输出层梯度：
$\frac{\partial L}{\partial W_2} = (a - y)h^T$
隐藏层梯度：
$\frac{\partial L}{\partial W_1} = [(W_2^T (a - y)) \odot h \odot (1 - h)] x^T$

其中符号( \odot )表示逐元素乘积。这一过程揭示了梯度是如何通过反向路径传播的。

六、Sigmoid函数的特殊性质与训练动态

Sigmoid激活函数对训练过程有重要影响：

梯度饱和现象：
当( |z| > 5 )时，( \sigma’(z) \approx 0 )，导致深层网络梯度消失。
数学表达式：
$\sigma'(z) = \sigma(z)(1-\sigma(z)) \leq 0.25$
输出分布压缩：
Sigmoid将输出限制在(0,1)，迫使网络学习概率意义上的边界决策。
与交叉熵损失的兼容性：
交叉熵损失中的对数项与Sigmoid导数中的( a(1-a) )项相互抵消，使得：
$\frac{\partial L}{\partial z} = a - y$
这种设计避免了梯度衰减，称为"梯度友好性"。

七、训练过程的数值稳定性分析

实际实现中需考虑计算稳定性：

对数运算溢出问题：
直接计算( \log(\sigma(z)) )时，当( z \to -\infty )会导致数值下溢。
解决方案：使用恒等式
$\log(\sigma(z)) = z - \log(1 + e^z)$
$\log(1 - \sigma(z)) = -\log(1 + e^z)$
参数初始化约束：
为避免初始梯度消失，需确保初始( z )值分布在Sigmoid线性区（约[-2,2]）。常用Xavier初始化：
$W_{ij} \sim \mathcal{N}(0, \sqrt{2/(n_{in} + n_{out})})$

八、可视化理解：损失曲面与优化路径

通过低维投影观察训练动态：

等高线图：展示损失函数在参数空间的等值面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bj1XThnI-1741105724173)(https://miro.medium.com/v2/resize:fit:1400/1*_1xNK3x19uU8T3v1FYCqFQ.png)]
优化轨迹：梯度下降在参数空间的移动路径
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3P7WkY0n-1741105724174)(https://www.researchgate.net/publication/334567142/figure/fig2/AS:779826961739776@1562865988985/Contour-plot-of-the-loss-function-landscape-and-optimization-trajectory-The-red-line.jpg)]

九、数学局限性与改进方向

非凸优化难题：
深层网络的损失函数具有指数级数量的局部极小，但实践发现：
- 大多数局部极小在经验风险上接近全局最优（Choromanska et al., 2015）
- 鞍点问题比局部极小更严重（Dauphin et al., 2014）
自适应优化器：
Adam等算法引入动量与自适应学习率：
$m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t$
$v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2$
$\theta_{t+1} = \theta_t - \eta \frac{m_t}{\sqrt{v_t} + \epsilon}$