当前位置: 首页 > article >正文

Stata 回归结果详解

目录

  • 一、数据信息
  • 二、指标
    • 1.上半部分
    • 2.下半部分
  • 三、详细解释
    • SSM - 模型平方和
    • SSR - 残差平方和
    • SST - 总平方和
    • R-squared - R方 - 拟合系数
    • Adj R-squared - 调整后的拟合系数
    • df - 自由度
    • MS - 均方差
    • F - 总体显著性检验
    • Prob > F - P值
    • Root MSE
    • Coef.
    • Std. Err.
    • t
    • P > | t |
    • 95% Conf. Interval

一、数据信息

使用stata自带的auto数据,
被解释变量(因变量):price(价格)
解释变量(自变量):mpg(里程)、rep78(1978年后的修理记录)、weight(重量)、length(长度)、foreign(本土/国外品牌)
在这里插入图片描述
回归结果分两部分,上半部分为回归结果的总体描述信息,下半部分为具体变量信息。

二、指标

1.上半部分

指标英文名称解释
SSsum of squares平方和
dfdegrees of freedom自由度
MSmean square均方差
Model(SSM)sum of squares model模型平方和衡量预测值的离散程度
Residual(SSR)sum of squares residual残差平方和衡量预测值与真实值的偏差程度
Total(SST)sum of squares total总平方和衡量真实数据的离散程度
Number of obs观测值数量观测值数量
F(a,b)F值检验系数不为0的概率
Prob > FP值1%、5%、10%水平上显著
R-squared拟合系数表示模型的拟合程度
Adj R-squared调整后的拟合系数更精确的表示模型的拟合程度
Root MSERoot Mean square of error均误差平方根衡量模型中的误差项的大小

2.下半部分

指标英文名中文名解释
Coefficient系数β
Std. err.The standard error of the coefficient回归系数标准误估计系数的波动水平
tt值检验系数不为0的概率
p > [t]P值1%、5%、10%水平上显著
[95% conf. interval]confidence interval置信区间回归系数取值范围,该范围有效率是95%

三、详细解释

在这里插入图片描述

SSM - 模型平方和

每一个预测值与平均值之间距离的平方之和
在这里插入图片描述
SSM越大越好

SSR - 残差平方和

每一个真实值与预测值之间距离的平方之和,即误差项的平方和
在这里插入图片描述
SSR越小越好

SST - 总平方和

每一个真实值与平均值之间距离的平方之和,用于衡量真实值的离散程度
在这里插入图片描述
SST = SSM + SSR ,即【总平方和=模型平方和+残差平方和】

R-squared - R方 - 拟合系数

拟合系数表示模型能解释的数据波动占总体波动的百分比,表示拟合程度
R方越高,表示模型的拟合程度越高,回归预测越准确
R方的值在0到1之间,具体的大小并无要求,需要根据不同的领域具体判断,在某些领域,10%-30%是合理的;而在某些领域甚至达到50%才是合理。
在这里插入图片描述

Adj R-squared - 调整后的拟合系数

R-squared无法控制变量的增加而导致过度拟合,Adj R-squared则在此基础上,引入了自变量的个数这一因素,以更加准确地评估模型的拟合效果。
在多元线性回归模型中,当自变量的数量增加时,R-squared也会随之增加。但是,当自变量的数量增加时,也容易出现过拟合(overfitting)现象,导致模型的预测能力下降。因此,为了避免过拟合,我们需要使用Adj R-squared对R-squared进行修正。Adj R-squared可以更精确地反映自变量对因变量的解释程度,避免了因自变量数量增加而导致的过拟合问题,是多元线性回归模型中一个比较重要的评估指标。

df - 自由度

自由度是表示能够自由变动的变量的个数

例如:有3个变量a、b、c,加入限制条件 a + b + c = 100,则a和b任意取一个值后,c无法自由取值,即df=2。
在本文章的数据中,观测值 n= 69,自由度 df = 69 - 1 = 68

本章数据中,假设观测值个数为n,自变量个数为k,则:
df_Total = n - 1
df_Model = k (不是k-1,因为模型中有常数项β0,所以模型的自由度就是自变量个数)
df_Residual = n - k -1 = 69 - 5 - 1 = 63

MS - 均方差

MS = SS / df

简单理解就是平方和的平均数

F - 总体显著性检验

F = MS_Model / MS_Residual

原假设H0:所有系数β均为0
备择假设H1:系数β不全为0

F值越大越好

Prob > F - P值

P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。
P值由F值查表得出

P值表示在在原假设成立的情况下,能够得到F值的概率,通常有模型在1%、5%、10%水平下拒绝原假设,从而认为自变量对因变量影响的显著水平,也可以说模型在1%、5%、10%水平上显著。
当 P < 0.1 时,模型在10%水平上显著。
当 P < 0.05 时,模型在5%水平上显著。
当 P < 0.01 时,模型在1%水平上显著。

P值越小越好

Root MSE

衡量模型中的误差项的大小,Root MSE越大,误差越大
在这里插入图片描述
Root MSE越小越好

Coef.

回归系数,其中_cons表示常数项

例:连续变量和0-1变量的解释不用,本文数据中:
车辆重量weight为连续变量,weight每增加一千克,价格price将增加6.006738美元。
是否为外国车辆foreign为0-1变量,当foreigh=1时,价格price将增加3303.213美元。

Std. Err.

衡量估计系数的波动水平

t

t = Coef. / Std. Err.
越大越好

P > | t |

仍是P值,根据t值查表获得

当 | t | > 1.65 或 P < 0.1 时,模型在10%水平上显著,标记*。
当 | t | > 1.96 或 P < 0.05 时,模型在5%水平上显著,标记**。
当 | t | > 2.58 或 P < 0.01 时,模型在1%水平上显著,标记***。

越小越好

95% Conf. Interval

95%置信区间,表示回归系数的取值范围,该范围有效的概率是95%


http://www.kler.cn/a/7762.html

相关文章:

  • 【大数据基础】大数据概述
  • mysql中查询json的技巧
  • 如何用 ESP32-CAM 做一个实时视频流服务器
  • 嵌入式系统 (2.嵌入式硬件系统基础)
  • 结构化日志和集中日志服务
  • Kubernetes集群架构
  • Linux在游戏界的口碑树立
  • [c++17新增语言特性] --- 内联变量 和 if
  • python中字符串分割练习
  • 覆盖3700家机构!人大金仓联合卫宁健康助力广州市妇幼保健系统信创升级
  • 企业IM即时通讯软件需要具备哪些功能?
  • 【Android】测试方法汇总,助力打造完美应用
  • 【vue2】近期bug收集与整理01
  • 浏览器是如何工作的(1)
  • Postgre SQL pgsql解决表死锁解锁
  • 【java进阶09:集合】泛型、增强for、Collections集合工具类
  • 百度墨卡托坐标转化笔记
  • pyinstaller打包exe文件
  • 网络编程DAY 1
  • 护网面试题5.0
  • 4.整数类型
  • 五、页面切割技术,实现工作台
  • toArray转换 java.lang.ClassCastException
  • Kafka 3.4.0 kraft 集群搭建
  • 【机器学习】主成分分析(PCA)算法及Matlab实现
  • 数据结构.双链表的各种操作