揭秘均值抽样分布:因果推断的统计学基础
为什么需要均值抽样分布?
对于一个分布未知的总体,可以对该总体进行抽样,根据抽样样本推断该总体的分布。
从同一个总体中随机抽取多个样本(每个样本包含的个体数量相同,记为“样本容量n”),计算每个样本包含的个体在某个特征的均值,这些均值形成的分布就是均值抽样分布。无论总体分布如何,只要样本容量n足够大(通常n>=30),根据中心极限定理,样本均值抽样分布将近似正态分布。
样本容量n取多大合适呢?当总体分布 偏离正态分布越远(越不像正态分布),要求n的取值越大;在实际情况中,一般不知道总体分布情况,要求n>=30,这时,才有可能让中心极限定理成立。
参考文章:公众号原文-揭秘均值抽样分布:因果推断的统计学基础
均值抽样分布示例
取视频号上某作者发布的科学区视频,总体包括4个视频,对应的播放量如下:
根据上表,可以计算得到:
总体均值
μ
=
1
4
∑
i
=
1
4
x
i
=
21
\mu=\frac{1}{4}\sum\limits_{i=1}^4 x_i = 21
μ=41i=1∑4xi=21
总体标准差
σ
=
1
4
∑
i
=
1
4
(
x
i
−
μ
)
2
=
2.236
\sigma=\sqrt{\frac{1}{4}\sum\limits_{i=1}^4(x_i-\mu)^2}=2.236
σ=41i=1∑4(xi−μ)2=2.236
从总体中,有放回得抽取样本容量n=2的样本,抽取16个样本,即得到下表;然后,根据下表的各组均值取值,在坐标轴上相应取值上计数,比如,18出现一次相应刻度的高度就是1,19出现两次相应刻度的高度就是2,以此类推,得到相应均值抽样分布的柱状图。同时,可以计算得到:
均值抽样分布的样本均值
μ
x
ˉ
=
1
16
∑
j
=
1
16
x
ˉ
j
=
21
\mu_{\bar{x}}=\frac{1}{16}\sum\limits_{j=1}^{16} \bar{x}_j = 21
μxˉ=161j=1∑16xˉj=21
样本均值的标准差
σ
x
ˉ
=
1
15
∑
j
=
1
16
(
x
ˉ
j
−
μ
x
ˉ
)
2
=
1.633
\sigma_{\bar{x}}=\sqrt{\frac{1}{15}\sum\limits_{j=1}^{16}(\bar{x}_j-\mu_{\bar{x}})^2}=1.633
σxˉ=151j=1∑16(xˉj−μxˉ)2=1.633
到此为止均值抽样分布的介绍就结束了,对相关主题感兴趣的读者欢迎关注公众号「瑞行AI」,后台留言交流讨论。不定时分享AI算法、大模型、因果推断、推荐系统等知识。