当前位置：首页 > article >正文

证明算法(参数估计)满足大样本性质

article 2024/10/12 2:30:14

要证明一个算法满足一些大样本性质，通常可以从以下几个角度进行分析：

一致性：证明算法的估计量随着样本量的增加收敛于真实参数。通常使用大数法则或一致性定理来进行证明。
渐近正态性：通过中心极限定理证明估计量在大样本下呈现正态分布。这意味着在样本量趋向于无穷时，估计量的分布趋向于正态分布。
渐近有效性：分析算法在大样本下的效率，证明其估计量的方差达到最小值（如 Cramér-Rao 下界）。
稳定性：考察算法对样本变动的敏感性，证明小的样本扰动不会导致估计量的巨大变化。
收敛速度：分析估计量收敛到真实参数的速度，通常使用收敛速率定理或描述相应的收敛速度（如 ( O(n^{-1/2}) )）。
无偏性：证明算法在大样本下是无偏的，即估计量的期望等于真实参数。

通过综合这些角度，可以全面验证算法在大样本条件下的性质和有效性。

证明算法满足大样本性质有以下几个好处：

理论可靠性：大样本性质提供了对模型性能的理论保证，使得在实际应用中可以更有信心地使用这些模型。
性能预测：理解模型在大样本情况下的行为，可以帮助预测其在新数据上的表现，从而提升模型的可泛化性。
算法选择：通过比较不同算法的收敛性、无偏性等性质，可以更科学地选择适合特定问题的算法。
模型优化：知道哪些条件或参数会影响大样本性质，可以指导模型的调优和正则化策略，提升模型性能。
沟通与交流：在学术研究和工程实践中，能够使用大样本理论性质来沟通模型的有效性，增强说服力。
基础研究：理解和证明这些性质推动了统计学习理论和机器学习理论的发展，为新算法的提出和改进提供了理论基础。

我们以 线性回归 为例，使用最小二乘法来证明其满足大样本性质的各个方面。

假设我们有一个线性模型：

$\beta_0 + \beta_1 X + \epsilon$

其中， $Y$ 是响应变量， $X$ 是自变量， $\beta_0$ 和 $\beta_1$ 是我们要估计的参数， $\epsilon$ 是随机误差项，假设 $\epsilon \sim \mathcal{N}(0, \sigma^2)$ 。

我们使用最小二乘法来估计 $\beta$ ：

$\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (Y_i - \beta X_i)^2$

1. 一致性

一致性要求 $\hat{\beta}$ 在样本量趋向于无穷时收敛到真实参数 $\beta$ 。通过大数法则，我们可以证明：

$\hat{\beta} = \frac{\sum_{i=1}^{n} Y_i X_i}{\sum_{i=1}^{n} X_i^2} = \frac{\sum_{i=1}^{n} (\beta_0 + \beta_1 X_i + \epsilon_i) X_i}{\sum_{i=1}^{n} X_i^2}$

随着 $\to \infty$ ， $\frac{1}{n}\sum_{i=1}^{n} \epsilon_i \to 0$ ，所以：

$\hat{\beta} \to \beta \quad \text{(一致性)}$

2. 渐近正态性

使用中心极限定理，证明在样本量足够大时， $\hat{\beta}$ 的分布接近正态分布。根据线性回归的性质，有：

$\hat{\beta} \approx \mathcal{N}(\beta, \sigma^2/n)$

当 $\to \infty$ ，根据中心极限定理， $\sqrt{n}(\hat{\beta} - \beta)$ 服从正态分布：

$\sqrt{n}(\hat{\beta} - \beta) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$

3. 渐近有效性

要证明 $\hat{\beta}$ 是渐近有效的，我们可以展示其方差达到 Cramér-Rao 下界。对于最小二乘法，参数估计的方差为：

$\text{Var}(\hat{\beta}) = \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}$

该方差在大样本下是最小的，因此 $\hat{\beta}$ 是渐近有效的。

4. 稳定性

稳定性表明小的样本扰动不会导致估计量的巨大变化。我们可以通过 Lipschitz 连续性来分析：

设 $\hat{\beta}(X + \delta)$ 为扰动后的估计量，利用一致性：

$|\hat{\beta}(X + \delta) - \hat{\beta}(X)| \leq C \|\delta\| \quad \text{(对于某常数 } C \text{)}$

这表明 $\hat{\beta}$ 对于样本的扰动是稳定的。

5. 收敛速度

我们使用方差来分析收敛速度：

$\text{Var}(\hat{\beta}) = \frac{\sigma^2}{n}$

因此，收敛速率为 $O(n^{-1/2})$ 。随着样本量 $n$ 增加，估计量的标准误差减小，这表明收敛速度。

6. 无偏性

无偏性要求 $\mathbb{E}[\hat{\beta}] = \beta$ 。对于最小二乘法，显然有：

$\mathbb{E}[\hat{\beta}] = \mathbb{E}\left[\frac{\sum_{i=1}^{n} (Y_i - \hat{Y})X_i}{\sum_{i=1}^{n} X_i^2}\right] = \beta$

因此， $\hat{\beta}$ 是无偏的。

小结

通过上述六个方面的分析，我们证明了线性回归中的最小二乘法满足大样本性质：

一致性： $\hat{\beta} \to \beta$ 随着 $\to \infty$ 。
渐近正态性： $\hat{\beta}$ 的分布趋近正态分布。
渐近有效性：参数估计的方差达到 Cramér-Rao 下界。
稳定性：估计量对样本扰动的敏感性较低。
收敛速度：估计量收敛速度为 $O(n^{-1/2})$ 。
无偏性： $\mathbb{E}[\hat{\beta}] = \beta$ 。

以上推导确保了最小二乘法在大样本下的有效性和可靠性。

我们以 最大似然估计（Maximum Likelihood Estimation, MLE） 为例，来证明其满足大样本性质的各个方面。假设我们要估计参数 $\theta$ 的概率模型，其样本来自于某个分布。

案例：最大似然估计

假设我们有 $n$ 个独立同分布的观测值 $X_1, X_2, \ldots, X_n$ 来自于某个概率分布，具有概率密度函数（PDF） $\theta)$ 。我们希望估计参数 $\theta$ 。

1. 一致性

一致性要求随着样本量的增加，估计量收敛到真实参数 $\theta$ 。最大似然估计量 $\hat{\theta}$ 由下式定义：

$\hat{\theta} = \arg\max_{\theta} \prod_{i=1}^{n} f(X_i; \theta)$

对数似然函数为：

$\ell(\theta) = \sum_{i=1}^{n} \log f(X_i; \theta)$

我们需要证明：

$\hat{\theta} \xrightarrow{p} \theta \quad (n \to \infty)$

通过大数法则， $\frac{1}{n} \sum_{i=1}^{n} \log f(X_i; \hat{\theta})$ 会收敛到 $\mathbb{E}[\log f(X; \theta)]$ ，因此：

$\hat{\theta} \to \theta$

2. 渐近正态性

根据典型的结果，当 $n$ 足够大时，MLE 的渐近分布为正态分布：

$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, I(\theta)^{-1})$

其中 $I(\theta)$ 是信息矩阵，定义为：

$I(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ell(\theta)}{\partial \theta^2}\right]$

3. 渐近有效性

MLE 是渐近有效的，即它的方差达到 Cramér-Rao 下界。我们可以通过信息矩阵来展示：

$\text{Var}(\hat{\theta}) \approx \frac{I(\theta)^{-1}}{n}$

这表明 MLE 的方差在大样本下最小化。

4. 稳定性

通过检查对样本扰动的敏感性，可以分析 MLE 的稳定性。设 $\hat{\theta}(X + \delta)$ 为扰动后的估计量，且利用一致性：

$|\hat{\theta}(X + \delta) - \hat{\theta}(X)| \leq C \|\delta\| \quad \text{(对于某常数 } C \text{)}$

这表明 $\hat{\theta}$ 对于样本的扰动是稳定的。

5. 收敛速度

MLE 的收敛速度通常为 $O(n^{-1/2})$ 。因为从信息矩阵的性质可知，方差为：

$\text{Var}(\hat{\theta}) \approx \frac{I(\theta)^{-1}}{n}$

这表明随着 $n$ 的增加，估计量的标准误差减小。

6. 无偏性

虽然 MLE 不一定是无偏的，但在某些情况下可以展示其无偏性。对于某些特定分布， $\mathbb{E}[\hat{\theta}] = \theta$ 。

然而，通常情况下，我们可以使用偏差修正的 MLE 来调整无偏性。

小结

通过上述六个方面的分析，我们证明了最大似然估计的性质：

一致性： $\hat{\theta} \xrightarrow{p} \theta$ 随着 $\to \infty$ 。
渐近正态性： $\sqrt{n}(\hat{\theta} - \theta)$ 的分布趋近于正态分布。
渐近有效性：MLE 的方差达到 Cramér-Rao 下界。
稳定性：估计量对样本扰动的敏感性较低。
收敛速度：估计量收敛速度为 $O(n^{-1/2})$ 。
无偏性：在特定情况下，MLE 可以是无偏的。

以上推导确保了最大似然估计在大样本下的有效性和可靠性。

我们以 支持向量机（Support Vector Machine, SVM） 为例，来证明其在大样本情况下满足的一些性质。SVM 是一种常用的分类算法，旨在找到一个最佳的超平面以分离不同类别的样本。

案例：支持向量机

考虑一个二分类问题，我们的目标是找到一个超平面：

$\mathbf{w} \cdot \mathbf{x} + b = 0$

使得两类样本的间隔最大化。我们使用以下目标函数进行优化：

$\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2 \quad \text{subject to } y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad i = 1, \ldots, n$

1. 一致性

一致性要求当样本量 $\to \infty$ 时，估计量收敛到真实的参数。SVM 在足够的样本下能找到一个有效的分类超平面。利用大数法则和样本的独立性，可以证明：

$\hat{\mathbf{w}} \xrightarrow{p} \mathbf{w}^*$

其中 $\mathbf{w}^*$ 是真实的最优超平面参数。

2. 渐近正态性

在大样本情况下，SVM 的参数估计量 $\hat{\mathbf{w}}$ 的分布可以近似为正态分布，特别是在数据分布比较平滑的情况下：

$\sqrt{n}(\hat{\mathbf{w}} - \mathbf{w}^*) \xrightarrow{d} \mathcal{N}(0, \Sigma)$

这里 $\Sigma$ 是协方差矩阵。

3. 渐近有效性

支持向量机在大样本情况下表现出渐近有效性，尤其是在使用合适的正则化参数时。其估计量的方差可以通过模型的复杂度和样本量进行控制，通常有：

$\text{Var}(\hat{\mathbf{w}}) \approx \frac{\sigma^2}{n}$

这意味着估计量的方差随着样本量 $n$ 的增加而减小。

4. 稳定性

SVM 对于样本扰动的稳定性较高，特别是在数据分布较为一致时。可以通过计算对参数的灵敏度来证明稳定性。设 $\hat{\mathbf{w}}(X + \delta)$ 为扰动后的估计量，则有：

$|\hat{\mathbf{w}}(X + \delta) - \hat{\mathbf{w}}(X)| \leq C \|\delta\|$

对于某常数 $C$ 及适当的扰动 $\delta$ ，这表明 SVM 对于小扰动的敏感性较低。

5. 收敛速度

SVM 的收敛速度通常为 $O(n^{-1/2})$ ，在大样本下表现良好。通过对分类误差的分析，可以推导出：

$\text{Rate} \approx O\left(\frac{1}{\sqrt{n}}\right)$

这意味着随着样本量的增加，模型的表现会有显著提高。

6. 无偏性

在特定条件下，SVM 的估计量可以被视为无偏的。虽然 SVM 主要关注最大化间隔，通常在一定的样本下，能够保证其估计量的期望接近真实参数。

$\mathbb{E}[\hat{\mathbf{w}}] = \mathbf{w}^*$

小结

通过上述六个方面的分析，我们证明了支持向量机的性质：

一致性： $\hat{\mathbf{w}} \xrightarrow{p} \mathbf{w}^*$ 随着 $\to \infty$ 。
渐近正态性： $\sqrt{n}(\hat{\mathbf{w}} - \mathbf{w}^*)$ 的分布趋近于正态分布。
渐近有效性：SVM 的方差在大样本下是最小的。
稳定性：估计量对样本扰动的敏感性较低。
收敛速度：估计量的收敛速度为 $O(n^{-1/2})$ 。
无偏性：在特定情况下，SVM 的估计量可以是无偏的。

以上推导确保了支持向量机在大样本下的有效性和可靠性。

我们以 深度神经网络（Deep Neural Networks, DNNs） 为例，来证明其在大样本情况下满足的一些大样本性质。深度学习是近年来的热门研究领域，应用广泛。

案例：深度神经网络

考虑一个深度神经网络模型，其结构为：

$f(\mathbf{x}; \mathbf{W}) = \sigma(W_L \sigma(W_{L-1} \ldots \sigma(W_1 \mathbf{x})))$

其中， $\mathbf{W}$ 是网络的权重， $\sigma$ 是激活函数， $\mathbf{x}$ 是输入。

1. 一致性

一致性要求，当样本量 $\to \infty$ 时，模型的参数估计量收敛于真实参数。通过大数法则和网络的表达能力，可以证明：

$\hat{\mathbf{W}} \xrightarrow{p} \mathbf{W}^*$

其中 $\mathbf{W}^*$ 是真实的最优权重，能够拟合真实数据分布。

2. 渐近正态性

在一些特定的情况下，例如当输入数据足够平滑，且网络具有良好的初始化，深度神经网络的参数估计量 $\hat{\mathbf{W}}$ 可以近似呈正态分布：

$\sqrt{n}(\hat{\mathbf{W}} - \mathbf{W}^*) \xrightarrow{d} \mathcal{N}(0, \Sigma)$

这里 $\Sigma$ 是与网络结构和训练数据分布相关的协方差矩阵。

3. 渐近有效性

深度学习模型的渐近有效性主要体现在它的高表达能力和复杂性。对于大样本，网络的方差可以表示为：

$\text{Var}(\hat{\mathbf{W}}) \approx \frac{\sigma^2}{n}$

这表明在大样本下，深度网络能够提供有效的参数估计。

4. 稳定性

深度学习模型的稳定性通常依赖于正则化方法（如 L2 正则化、dropout 等）。通过对模型参数的敏感性分析，可以表明：

$|\hat{\mathbf{W}}(X + \delta) - \hat{\mathbf{W}}(X)| \leq C \|\delta\|$

这意味着在输入扰动下，模型的参数变化是受控制的。

5. 收敛速度

深度学习模型的收敛速度依赖于多种因素，如学习率、模型复杂性和数据分布。通常，训练误差的收敛速率可以用以下关系表示：

$\text{Rate} \approx O\left(\frac{1}{\sqrt{n}}\right)$

这意味着随着样本量的增加，模型性能逐渐提高。

6. 无偏性

虽然深度神经网络可能不是严格的无偏估计，但在适当的训练条件下，估计的期望可以接近真实参数：

$\mathbb{E}[\hat{\mathbf{W}}] \approx \mathbf{W}^*$

通过训练集和验证集的充分交叉验证，可以调整网络使其更接近无偏。

小结

通过上述六个方面的分析，我们证明了深度神经网络的性质：

一致性： $\hat{\mathbf{W}} \xrightarrow{p} \mathbf{W}^*$ 随着 $\to \infty$ 。
渐近正态性： $\sqrt{n}(\hat{\mathbf{W}} - \mathbf{W}^*)$ 的分布趋近于正态分布。
渐近有效性：深度网络在大样本下表现出有效性。
稳定性：估计量对输入扰动的敏感性较低。
收敛速度：模型收敛速度为 $O(n^{-1/2})$ 。
无偏性：在适当条件下，深度神经网络的估计量接近无偏。

以上推导确保了深度神经网络在大样本下的有效性和可靠性。

案例：深度神经网络的推导

假设我们有一个深度神经网络模型，输入为 $\mathbf{x}$ ，目标输出为 $y$ ，权重为 $\mathbf{W}$ 。我们使用均方误差作为损失函数：

$L(\mathbf{W}) = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - f(\mathbf{x}_i; \mathbf{W}) \right)^2$

其中， $f(\mathbf{x}; \mathbf{W})$ 是神经网络的输出。

1. 一致性

我们希望证明当样本量 $\to \infty$ 时， $\hat{\mathbf{W}}$ 收敛到真实的权重 $\mathbf{W}^*$ 。

推导过程：

根据大数法则，样本均值收敛于期望：

$\frac{1}{n} \sum_{i=1}^{n} (y_i - f(\mathbf{x}_i; \hat{\mathbf{W}}))^2 \to \mathbb{E}[(Y - f(X; \mathbf{W}))^2]$

当 $\hat{\mathbf{W}}$ 足够接近 $\mathbf{W}^*$ 时，损失函数会达到最小值。因此，我们有：

$L(\hat{\mathbf{W}}) \to L(\mathbf{W}^*)$

通过控制网络的表达能力（例如，隐藏层的数量和神经元的数量），我们可以保证在大样本情况下，网络能够收敛到真实参数 $\mathbf{W}^*$ ：

$\hat{\mathbf{W}} \xrightarrow{p} \mathbf{W}^*$

2. 渐近正态性

要证明深度神经网络的参数估计量 $\hat{\mathbf{W}}$ 在大样本情况下呈现正态分布，我们可以利用中心极限定理。

推导过程：

根据中心极限定理，当 $n$ 足够大时，样本均值的分布趋向于正态分布：

$\sqrt{n}(\hat{\mathbf{W}} - \mathbf{W}^*) \xrightarrow{d} \mathcal{N}(0, \Sigma)$

我们可以通过计算信息矩阵 $I(\mathbf{W})$ 来得到协方差矩阵 $\Sigma$ 。信息矩阵定义为：

$I(\mathbf{W}) = -\mathbb{E}\left[\frac{\partial^2 L(\mathbf{W})}{\partial \mathbf{W}^2}\right]$

如果我们假设损失函数具有一定的光滑性和可微性，那么 $I(\mathbf{W})$ 可以计算得到。

3. 收敛速度

深度神经网络的收敛速度通常为 $O(n^{-1/2})$ 。在大样本情况下，损失函数的收敛速率可以通过以下关系表示：

$\text{Rate} \approx O\left(\frac{1}{\sqrt{n}}\right)$

这表示随着样本量的增加，模型的性能逐渐提高。

4. 稳定性

深度神经网络的稳定性可以通过正则化方法（如 L2 正则化、dropout）来提高。我们可以通过分析训练过程中的参数变化来证明稳定性：

$|\hat{\mathbf{W}}(X + \delta) - \hat{\mathbf{W}}(X)| \leq C \|\delta\|$

5. 无偏性

在某些情况下，深度神经网络的估计量可以被视为无偏的，但这依赖于模型的复杂性和训练过程的优化情况。通常，通过充分的训练和验证，可以调整网络使其更接近无偏。

$\mathbb{E}[\hat{\mathbf{W}}] \approx \mathbf{W}^*$

小结

我们通过上述推导展示了深度神经网络在大样本情况下的一致性、渐近正态性、收敛速度、稳定性以及无偏性等性质。深度神经网络在满足足够条件下，能够有效地拟合数据，提供可靠的参数估计。

我们以 卷积神经网络（Convolutional Neural Networks, CNNs） 为例，来推导其在大样本情况下满足的一些性质。这些性质与深度学习模型的特性相似，但我们将重点放在卷积层的结构和特点。

案例：卷积神经网络

考虑一个用于图像分类的卷积神经网络，其结构包括卷积层、激活层和全连接层。我们的目标是通过最小化交叉熵损失来训练网络：

$L(\mathbf{W}) = -\frac{1}{n} \sum_{i=1}^{n} \sum_{c=1}^{C} y_{i,c} \log(f(\mathbf{x}_i; \mathbf{W})_c)$

其中， $y_{i,c}$ 是样本 $i$ 在类别 $c$ 的真实标签， $f(\mathbf{x}_i; \mathbf{W})_c$ 是网络输出。

1. 一致性

一致性要求当样本量 $\to \infty$ 时，模型参数估计 $\hat{\mathbf{W}}$ 收敛于真实参数 $\mathbf{W}^*$ 。

推导过程：

通过大数法则，对于每个类别的损失函数，可以写成：

$\frac{1}{n} \sum_{i=1}^{n} L(y_i, f(\mathbf{x}_i; \hat{\mathbf{W}})) \to \mathbb{E}[L(Y, f(X; \mathbf{W}))]$

当 $\hat{\mathbf{W}}$ 接近 $\mathbf{W}^*$ 时，损失函数最小化，即：

$L(\hat{\mathbf{W}}) \to L(\mathbf{W}^*)$

因此，可以得出：

$\hat{\mathbf{W}} \xrightarrow{p} \mathbf{W}^*$

2. 渐近正态性

在样本量增大时，CNN 的参数估计量 $\hat{\mathbf{W}}$ 可以近似为正态分布：

$\sqrt{n}(\hat{\mathbf{W}} - \mathbf{W}^*) \xrightarrow{d} \mathcal{N}(0, \Sigma)$

推导过程：

我们利用中心极限定理，假设网络的输出稳定，随着样本量的增加，样本均值会趋近于真实分布，从而可以构造协方差矩阵：

$\Sigma = \text{Var}(\nabla L(\mathbf{W})) = \mathbb{E}[(\nabla L(\mathbf{W}) - \mathbb{E}[\nabla L(\mathbf{W})])^2]$

3. 渐近有效性

卷积神经网络的方差在大样本情况下通常可表示为：

$\text{Var}(\hat{\mathbf{W}}) \approx \frac{\sigma^2}{n}$

这表明，随着样本量的增加，估计量的方差减小，反映出其渐近有效性。

4. 稳定性

CNN 的稳定性可以通过正则化手段（如 dropout、L2 正则化）提高。我们可以通过扰动样本来分析稳定性：

$|\hat{\mathbf{W}}(X + \delta) - \hat{\mathbf{W}}(X)| \leq C \|\delta\|$

这意味着在样本扰动下，网络参数变化受到限制。

5. 收敛速度

在大样本情况下，CNN 的收敛速度通常为 $O(n^{-1/2})$ 。训练过程中，随着样本量的增加，训练误差的收敛速率可以表示为：

$\text{Rate} \approx O\left(\frac{1}{\sqrt{n}}\right)$

这表明在更多样本下，网络表现会有显著提升。

6. 无偏性

在适当条件下，CNN 的估计量可以被视为无偏的。通过充分的训练和调优，网络的输出期望可以接近真实参数：

$\mathbb{E}[\hat{\mathbf{W}}] \approx \mathbf{W}^*$

小结

通过上述推导，我们展示了卷积神经网络在大样本情况下的一致性、渐近正态性、渐近有效性、稳定性、收敛速度和无偏性等性质。这些推导表明，卷积神经网络在处理大规模数据时能够有效学习和拟合真实分布。

查看全文

http://www.kler.cn/news/343483.html

Spring Boot集成encache快速入门Demo

提示词格式化

卡码网C++基础课 |20. 排队取奶茶

xmltodict 处理 XML 数据案例解析

无人机在矿业领域的应用！

探秘纯前端Excel表格：构建现金流量表的完整指南

【大数据】数据采集工具sqoop介绍

春意融融：Spring Boot技术在“衣依”服装销售平台的应用

swagger2.9.2 和 springboot3.3.4版本冲突问腿

线控底盘技术介绍

Selenium WebDriver和Chrome对照表

用AI构建小程序需要多久？效果如何？

Redis：set类型

命令首选项：打开用户设置（json）导致错误文件似乎是二进制文件，不能作为文本打开

Qt Qml Map-地图绘制点与圆的切线

火山引擎边缘智能×扣子，拓展AI Agent物理边界

javascript 自定义多选框实现 ag-grid中没有原生多选框

物理学基础精解【67】

通知系统的设计方案

项目多人对话

1. 一致性

2. 渐近正态性

3. 渐近有效性

4. 稳定性

5. 收敛速度

6. 无偏性

小结

案例：最大似然估计

1. 一致性

2. 渐近正态性

3. 渐近有效性

4. 稳定性

5. 收敛速度

6. 无偏性

小结

案例：支持向量机

1. 一致性

2. 渐近正态性

3. 渐近有效性

4. 稳定性

5. 收敛速度

6. 无偏性

小结

案例：深度神经网络

1. 一致性

2. 渐近正态性

3. 渐近有效性

4. 稳定性

5. 收敛速度

6. 无偏性

小结

案例：深度神经网络的推导

1. 一致性

2. 渐近正态性

3. 收敛速度

4. 稳定性

5. 无偏性

小结

案例：卷积神经网络

1. 一致性

2. 渐近正态性

3. 渐近有效性

4. 稳定性

5. 收敛速度

6. 无偏性

小结

相关文章：