当前位置：首页 > article >正文

【小白学机器学习31】大数定律，中心极限定理，标准正态分布与概率的使用

article 2025/2/21 3:44:54

目录

1 正态分布相关的2个相关定理

1.1 大数定律：(证明了)分布的稳定性

1.2 中心极限定理：(证明了)分布的收敛性

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

2.2 两种使用方式

2.3 第1种：按整数倍标准差δ 作为标准使用

2.3.1 比如3δ原则 /6西格玛管理

2.3.2 还有LCL, UCL管理

2.2 第2种：按比较整的概率如95%对应的标准差使用

3 应用举例1

4 应用举例2：造成误差的原因不是样本数占总体的比例，而是样本的绝对数量！

关于正态分布，具体应用

1 正态分布相关的2个相关定理

1.1 大数定律：(证明了)分布的稳定性

大量试验结果稳定性
频率的稳定性，
伯努利大数定律：样本数多n变大，某个事件发生的频度 =单次试验内发生的概率
泊松大数定律：样本数多n变大，样本平均值估计 =总体平均值

1.2 中心极限定理：(证明了)分布的收敛性

分布的收敛性
随机变量（如多次取样的均值）会逐渐符合某一分布：正态分布
二项分布的极限分布是正态分布
无论一组变量独立同分布，不管本身符合什么分布，但是有u和 δ^2。这组变量的样本平均数(多次抽样的平均数分分布)就服从 u和 δ^2/N的正态分布

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

标准正态分布曲线，曲线下的面积可以表示概率
曲线上的每个点，都是Xi值的标准值
标准值=xi-u/sd

2.2 两种使用方式

我们根据不同的需要，确定了我们使用 2δ 还是2.58δ
如果有可能，我们使用其他标准的δ 都有可能，关键是根据需求来

当我们需要以整数δ为标准来看概率时，选择 δ，2δ，3δ等
当我们需要以比较整的概率时比如95%，99%时，比如做假设检验的适合，选择 1.96δ，2.58δ等

2.3 第1种：按整数倍标准差δ 作为标准使用

按照 -3δ，-2δ，-1δ，1δ，2δ，3δ 这样的整数倍δ来划分区间

3δ，49.8%，99.99%
2.58δ，49.5%，99%
2δ，47.7%，95.45%
1.96δ，47.5%，95%
δ，34.1%，68.5%
-δ，34.1%，68.5%
-1.96δ，47.5%，95%
-2δ，47.7%，95.45%
-2.58δ，49.5%，99%
-3δ，49.8%，99.99%

2.3.1 比如3δ原则 /6西格玛管理

标准正态分布与概率，3δ原则
不同的标准差δ对应不同的概率
按照几倍δ，去找对应的概率，68.5%，95.45%，99.99%等

2.3.2 还有LCL, UCL管理

LCL“Low control limit 一般对应-3δ
UCL：UP control limit 一般对应+3δ

2.2 第2种：按比较整的概率如95%对应的标准差使用

按概率 90% 95% 99%等比较整的概率去划分标准正态分布的区间

3δ，49.8%，99.99%
2.58δ，49.5%，99%
2δ，47.7%，95.45%
1.96δ，47.5%，95%
δ，34.1%，68.5%
-δ，34.1%，68.5%
-1.96δ，47.5%，95%
-2δ，47.7%，95.45%
-2.58δ，49.5%，99%
-3δ，49.8%，99.99%

3 应用举例1

使用样本均值 + 总体的标准差，去估计总体均值的范围
使用样本均值 + 总体的标准差（样本标准差），去估计总体均值的范围

我们如果只有1个样本，少数样本，虽然不能直接推算总体样本，但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)

当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值

如果范围从95%→99%后，形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大，95%-99%，也就是置信区间变大了。而拒绝的空间α就很小了。

这个计算实际存在理论上的问题。但是实际上我们容易得到样本均值，但很难得到总体标准差，而如果用样本的标准差去替代总体的，也是个办法，因为样本方差的分母从N改为(N-1)=总体方差，所以还是可以行得通的，但是肯定是有误差的。

4 应用举例2：造成误差的原因不是样本数占总体的比例，而是样本的绝对数量！

一个更奇怪的公式
95%时
样本p-1.96*sqrt((N-n)/(N-1)*p*(1-p)/n) <总体P< 样本p+1.96*sqrt((N-n)/(N-1)*p*(1-p)/n)
而(N-n)/(N-1) 样本数量n比较小时，趋近于1，故意忽略
样本p-1.96*sqrt(p*(1-p)/n) <总体P< 样本p+1.96*sqrt(p*(1-p)/n)

造成误差的原因
不是样本数占总体的比例，而是样本的绝对数量！
反常识！

http://www.kler.cn/a/374495.html

相关文章：

Vue2指令原理手写

基于SSM+微信小程序的汽车预约维修管理系统（汽车3）

sublime text 常用快捷键

Chrome与夸克谁更节省系统资源

宝塔使用clickhouse踩坑

《AI产品经理手册》——解锁AI时代的商业密钥

从新手到专家：7款电脑平面设计软件评测

WPF+MVVM案例实战（十五）- 实现一个下拉式菜单（上）

OpenCV视觉分析之目标跟踪(3)实现基于金字塔的 Lucas-Kanade 算法来进行稀疏光流计算的类SparsePyrLKOpticalFlow的使用

《解锁 TDD 魔法：高效软件开发的利器》

读写chrome.storage.local

股票基础交易规则——涨跌幅限制、价格笼子？

Java：阿里云联络中心“双呼A”功能系统接入

vscode | 开发神器vscode快捷键删除和恢复

【VM实战】VMware迁移到VirtualBox

无人机之感知避让技术篇

【网络】什么是 ICMP （Internet Control Message Protocol）？

双指针习题篇(上)

基于SpringBoot的健身房系统的设计与实现(源码+定制+开发）

如何在1个账号上，1个客户6个人同时服务