当前位置：首页 > article >正文

数模原理精解【12】

article 2025/4/2 17:29:34

文章目录

广义线性模型
- 多元回归中的 $R^2$ （也称为决定系数）
- - 一、定义
  - 二、性质
  - 三、计算
  - 四、例子
  - 五、例题
- 偏相关系数
- - 一、定义
  - 二、计算
  - 三、性质
  - 四、例子
- 多元回归相关
- - 定义
  - 性质
  - 假设检验
  - - 定义
    - 计算
    - 性质
    - 检验方法
    - 例子和例题
    - - 例子
      - 例题
      - 例子
参考文献

广义线性模型

多元回归中的 $R^2$ （也称为决定系数）

是衡量回归模型拟合优度的一个重要指标。以下是关于多元回归相关R^2的定义、性质、计算、例子和例题的详细阐述：

一、定义

R^{2表示模型解释的因变量变异性的比例。在多元回归模型中，R}2反映了因变量的总变异中，有多少比例可以由模型中的自变量来解释。R^2的取值范围在0到1之间，值越接近1，表示模型对数据的拟合程度越好。

二、性质

无界性：R^2的值域为[0,1]，但不包括负值。
单调性：随着模型中自变量的增加，R^2的值通常会增大或保持不变，但不一定总是增加，因为新加入的自变量可能与因变量无关。
局限性：R^{2高并不意味着模型一定好，因为它可能受到样本量大小、自变量个数以及自变量之间共线性等因素的影响。为了更准确地评估模型，有时需要使用调整后的R}2（Adjusted R^2）等其他指标。

三、计算

R^2的计算公式如下：

$R^2 = 1 - \frac{\sum_{i=1}^n (Y_i - \hat{Y}_i)^2}{\sum_{i=1}^n (Y_i - \bar{Y})^2}$

其中：

$Y_i$ 是观测值（实际值）。
$\hat{Y}_i$ 是预测值（通过回归模型预测的值）。
$\bar{Y}$ 是所有观测值的平均值。
$n$ 是观测值的数量。

公式中的分子部分 $\sum_{i=1}^n (Y_i - \hat{Y}_i)^2$ 称为残差平方和（Residual Sum of Squares, RSS），它衡量的是模型预测值与实际观测值之间的差异。分母部分 $\sum_{i=1}^n (Y_i - \bar{Y})^2$ 称为总平方和（Total Sum of Squares, TSS），它衡量的是观测值与其平均值之间的差异。

四、例子

假设我们有一个多元回归模型，用于预测某地区的房价（Y），自变量包括房屋面积（X1）、房龄（X2）和地理位置评分（X3）。通过收集一定数量的数据点，我们可以使用统计软件计算出 $R^2$ 的值。如果 $R^2$ =0.85，则表示模型解释了房价变异的85%，剩余15%的变异则无法由模型中的自变量来解释。

五、例题

例题：某研究团队想要研究学生期末考试成绩（Y）与其平时成绩（X1）、作业完成情况（X2）和课堂参与度（X3）之间的关系。请基于一组样本数据，计算多元回归模型的R^2值，并解释其含义。

解答步骤：

数据收集：收集一定数量的观测值，包括期末考试成绩（Y）、平时成绩（X1）、作业完成情况（X2）和课堂参与度（X3）的数据。
模型构建与拟合：使用统计软件（如SPSS、R或Python的statsmodels库）构建多元回归模型，并将数据拟合到模型中。
计算R^2：统计软件会自动计算出 $R^2$ 的值。假设 $R^2$ =0.72。
结果解释： $R^2$ =0.72表示模型解释了期末考试成绩变异的72%，剩余28%的变异可能受到其他未考虑的因素（如个人天赋、家庭背景等）的影响。这表明，虽然平时成绩、作业完成情况和课堂参与度对学生的期末考试成绩有重要影响，但它们并不能完全解释考试成绩的变异。

偏相关系数

是统计学中用于分析两个变量之间净相关性的一种工具，特别是在存在其他变量影响的情况下。以下是对偏相关系数的定义、计算、性质及例子的详细阐述：

一、定义

偏相关系数（Partial Correlation Coefficient）表示在排除了其他变量影响的情况下，两个变量之间的相关程度。它是用来度量在控制了其他变量后，两个变量之间线性关系的强度和方向。偏相关系数能够更准确地反映两个变量之间的真实相关性，避免了其他变量可能产生的混杂效应。

二、计算

偏相关系数的计算通常涉及复杂的统计方法，但基本思路是控制其他变量的影响，然后计算两个变量之间的净相关性。具体计算方法有多种，包括迭代法、相关矩阵求逆法等。在实际应用中，统计软件（如SPSS、R等）通常提供了计算偏相关系数的功能，用户只需输入相应的数据即可得到结果。

以三个变量X、Y、Z为例，计算X和Y之间的偏相关系数（控制Z的影响），可以使用以下公式：

$r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}$

其中， $r_{XY}$ 、 $r_{XZ}$ 、 $r_{YZ}$ 分别为X与Y、X与Z、Y与Z之间的简单相关系数。

三、性质

取值范围：偏相关系数的取值范围在-1到1之间。当偏相关系数接近1或-1时，表示两个变量之间存在较强的净正相关或负相关关系；当偏相关系数接近0时，表示两个变量之间的净相关性较弱。
方向性：偏相关系数的正负号表示了两个变量之间净相关性的方向。正值表示正相关，负值表示负相关。
绝对性与相对性：偏相关系数的绝对值越大，表示两个变量之间的净相关性越强；但其绝对值必小于或等于由同一资料计算的复相关系数。
对称性：偏相关系数的下角标可以互换位置而不影响结果，如 $r_{XY.Z} = r_{YX.Z}$ 。

四、例子

假设我们正在研究学生的数学成绩（X）、阅读成绩（Y）和学习时间（Z）之间的关系。为了了解数学成绩和阅读成绩之间的净相关性（即排除学习时间的影响），我们可以收集一组学生的数学成绩、阅读成绩和学习时间的数据，并使用偏相关系数公式进行计算。

例如，假设有以下数据（数据仅为示例）：

学生编号	数学成绩X	阅读成绩Y	学习时间Z
1	80	70	10
2	85	75	12
3	90	80	14
…	…	…	…

首先，我们需要计算X与Y、X与Z、Y与Z之间的简单相关系数 $r_{XY}$ 、 $r_{XZ}$ 、 $r_{YZ}$ 。然后，将这些值代入偏相关系数公式 $r_{XY.Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}$ 中，得到数学成绩和阅读成绩之间的偏相关系数。这个偏相关系数就反映了在控制学习时间的影响后，数学成绩和阅读成绩之间的净相关性。

请注意，以上例子中的数据是虚构的，仅用于说明偏相关系数的计算过程。在实际应用中，应使用真实的数据进行分析。

多元回归相关

定义

在多元回归分析中，由于涉及到多个自变量，我们通常不直接计算一个单一的相关系数来描述因变量与所有自变量之间的关系。然而，可以计算每个自变量与因变量之间的偏相关系数，它表示在控制其他自变量不变的情况下，某一自变量与因变量之间的线性相关程度。

性质

无偏性：在理想条件下，偏相关系数的期望值等于总体参数的真实值。
敏感性：偏相关系数能够敏感地反映出自变量与因变量之间的线性关系强度，即使这种关系受到其他自变量的影响。

假设检验

定义

假设检验是统计学中用于检验样本数据所代表的总体是否具有某种特征或规律的方法。在多元回归分析中，假设检验主要用于检验回归模型的显著性和各个自变量的显著性。
假设检验是一种统计推断方法，用于根据样本数据对总体参数或总体分布形式做出判断。它基于一定的假设条件，通过比较样本数据与假设之间的差异，来决定是否拒绝原假设。在假设检验中，通常有两个假设：原假设（H0）和备择假设（H1）。原假设是初始的假设，通常表示没有差异或没有变化；备择假设则是与原假设相反的假设，表示存在差异或变化。

计算

假设检验的计算过程通常包括以下几个步骤：

确定原假设和备择假设：根据研究目的和背景知识，明确原假设和备择假设。
选择检验统计量：根据数据的类型和分布，选择合适的检验统计量。例如，对于正态分布的数据，可以使用t检验或z检验；对于非正态分布的数据，可以使用秩和检验等。
计算检验统计量的值：根据样本数据，计算所选检验统计量的具体数值。
确定显著性水平和拒绝域：根据研究需求和常用的显著性水平（如0.05、0.01等），确定拒绝域的范围。显著性水平表示在原假设为真的情况下，拒绝原假设的概率。
做出决策：比较计算得到的检验统计量值与拒绝域的范围，如果检验统计量值落在拒绝域内，则拒绝原假设；否则，接受原假设。

性质

决策的不确定性：假设检验的结果是一种决策，但这种决策是基于样本数据做出的，因此存在一定的不确定性。即使拒绝了原假设，也不能完全确定备择假设就是正确的。
显著性水平的影响：显著性水平的选择对假设检验的结果有重要影响。显著性水平越高，拒绝原假设的门槛越低，越容易得出显著差异的结论；反之，显著性水平越低，拒绝原假设的门槛越高，越难得出显著差异的结论。
检验统计量的选择：不同的检验统计量对数据的敏感性和适用性不同。选择合适的检验统计量对于得出准确的假设检验结果至关重要。
样本量的影响：样本量的大小对假设检验的结果也有影响。一般来说，样本量越大，假设检验的结果越可靠；但样本量过大也可能增加计算复杂度和成本。
统计推断：假设检验是基于样本数据对总体参数进行推断的过程。
显著性水平：通常设定一个显著性水平（如0.05），以判断样本数据是否提供了足够的证据来拒绝原假设。

检验方法

在多元回归分析中，常用的假设检验方法包括F检验和t检验：

F检验：用于检验整个回归模型是否显著，即所有自变量对因变量的影响是否联合显著。F统计量的计算公式为：

$\frac{\text{回归平方和}/\text{自变量个数}}{\text{残差平方和}/(\text{样本量}-\text{自变量个数}-1)}$

其中，回归平方和表示因变量变异中由自变量解释的部分，残差平方和表示因变量变异中未被自变量解释的部分。

t检验：用于检验每个自变量对因变量的影响是否显著。t统计量的计算公式为：
$\frac{\text{回归系数}}{\text{回归系数的标准误}}$

其中，回归系数表示自变量对因变量的影响大小，回归系数的标准误表示回归系数的估计误差。

例子和例题

例子

假设有一个多元回归模型，用于预测某商品的需求量（Y），自变量包括商品价格（X1）、消费者收入（X2）和广告支出（X3）。通过收集样本数据并进行回归分析，可以得到每个自变量的回归系数和相应的t统计量及P值。如果某个自变量的P值小于显著性水平（如0.05），则可以认为该自变量对需求量的影响是显著的。

例题

某研究团队想要研究家庭收入（X1）、受教育年限（X2）和家庭规模（X3）对家庭消费支出（Y）的影响。他们收集了100户家庭的数据，并进行了多元回归分析。以下是部分回归分析结果：

自变量	回归系数	标准误	t值	P值
家庭收入	0.5	0.1	5.0	0.000
受教育年限	0.3	0.15	2.0	0.05
家庭规模	-0.2	0.08	-2.5	0.01

根据上表，我们可以进行如下假设检验：

对于家庭收入，P值远小于0.05，因此拒绝原假设，认为家庭收入对家庭消费支出有显著影响。
对于受教育年限，P值等于0.05，处于显著性水平的边缘，但通常认为小于或等于0.05即显著，因此也拒绝原假设，认为受教育年限对家庭消费支出有显著影响。
对于家庭规模，P值小于0.05，因此拒绝原假设，认为家庭规模对家庭消费支出有显著影响。

请注意，以上例题中的数据是虚构的，仅用于说明假设检验的过程。在实际应用中，应使用真实的数据进行分析。
假设检验是统计学中用于判断样本数据与某个总体假设之间是否存在显著差异的方法。以下是关于假设检验的详细解说，包括其定义、计算、性质以及例子。

例子

例子：某工厂生产了一批产品，声称其平均重量为100克。为了验证这一声称，我们随机抽取了100个产品进行称重。假设原假设为H0：产品平均重量为100克；备择假设为H1：产品平均重量不为100克。我们选择t检验作为检验统计量，并设定显著性水平为0.05。

计算过程：

计算样本数据的平均值和标准差。
根据t检验的公式，计算t值。
查找t分布表，确定在显著性水平为0.05下的临界t值。
比较计算得到的t值与临界t值。如果t值大于临界t值，则拒绝原假设；否则，接受原假设。

结果解释：假设计算得到的t值为2.5，而临界t值为1.96（根据t分布表和显著性水平确定）。由于2.5大于1.96，因此我们拒绝原假设，认为产品的平均重量不为100克。这一结论是基于样本数据做出的，因此存在一定的不确定性。但为了提高结论的可靠性，我们可以增加样本量或选择更敏感的检验统计量进行进一步验证。