《概率论与数理统计》学渣笔记
文章目录
- 1 随机事件和概率
- 1.1 古典概型求概率
- 随机分配问题
- 简单随机抽样问题
- 1.2 几何概型求概率
- 1.3 重要公式求概率
- 2 一维随机变量及其分布
- 2.1 随机变量及其分布函数的定义
- 离散型随机变量及其概率分布(概率分布)
- 连续型随机变量及其概率分布(分布函数)
- 2.2 离散型分布
- 2.3 连续型分布
- 2.4 混合型分布
- 连续型→连续型(或混合型)
- 3 多维随机变量及其分布
- 3.1 定义
- 3.2 求联合分布
- 二维均匀分布与二维正态分布
- 3.3 求边缘分布
- 3.4 求条件分布
- 3.5 判独立
- 3.6 用分布
- 3.7(离散型,离散型)→离散型
- 3.8(连续型,连续型)→连续型
- 分布函数法
- 卷积公式法(建议用这个)
- 最值函数的分布
- 3.10(离散型,连续型)→连续型【全集分解】
- 3.11 离散型→(离散型,离散型)
- 3.12 连续型→(离散型,离散型)
- 3.13 (离散型,离散型)→(离散型,离散型)
- 3.14 (连续型,连续型)→(离散型,离散型)
- 3.15 (离散型,连续型)→(离散型,离散型)
- 4 数字特征
- 4.1 数学期望
- 4.2 方差
- 4.3 亚当夏娃公式
- 4.4 常用分布的期望和方差
- 4.5 协方差
- 4.6 相关系数
- 4.7 独立性与不相关性的判定
- 4.8 切比雪夫不等式
- 5 大数定律与中心极限定理
- 5.1 切比雪夫大数定律(均值依概率收敛到期望)
- 5.2 伯努利大数定律(频率依概率收敛到概率)
- 5.3 辛钦大数定律(均值依概率收敛到期望)
- 5.4 中心极限定理(n足够大时,均收敛于正态分布)
- 6 统计量及其分布
- 6.1 统计量
- 6.2 标准正态分布分布的上α分位数
- 6.3 卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)
- 6.4 t分布 t ∼ t ( n ) t\sim t(n) t∼t(n)
- 6.5 F分布 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)
- 6.6 正态总体下的常用结论
- 7 参数估计与假设检验
- 7.1 矩估计
- 7.2 最大似然估计(MLE)
- 7.3 常见分布的矩估计量和最大似然估计量
- 7.4 无偏性:求期望
- 7.5 有效性:比方差,方差越小越有效
- 7.6 一致性(相合性):大数定律
- 7.7 区间估计
- 7.8 假设检验
- 选择检验统计量
- 7.9 两类错误
- 第一类错误:弃真(直接算落入拒绝域的概率)
- 第二类错误:取伪(直接算落入收敛域的概率)
1 随机事件和概率
1.1 古典概型求概率
在古典概型中,样本空间中的每个基本事件发生的概率是相同的。如果样本空间中有 n n n 个可能的基本事件,而感兴趣的事件 A A A 包含其中的 m m m 个基本事件,则事件 A A A 发生的概率 P ( A ) P(A) P(A) 可以表示为:
P ( A ) = 事件 A 包含的基本事件数 样本空间Ω中的基本事件总数 = m n \boldsymbol{P(A) = \frac{\text{事件 } A \text{ 包含的基本事件数}}{\text{样本空间Ω中的基本事件总数}} = \frac{m}{n}} P(A)=样本空间Ω中的基本事件总数事件 A 包含的基本事件数=nm
求解步骤
-
确定样本空间:首先需要明确所有可能的结果,这些结果构成了样本空间 Ω Ω Ω。
-
确定感兴趣的事件:明确你要计算的事件 A A A,并找到包含在这个事件中的基本事件。
-
计算概率:使用上述公式 P ( A ) = m n P(A) = \frac{m}{n} P(A)=nm 来计算概率。
例子 1:投掷一枚公平的六面骰子
- 样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω = \{1, 2, 3, 4, 5, 6\} Ω={1,2,3,4,5,6},其中 n = 6 n = 6 n=6。
- 事件 A A A:投掷结果是一个偶数。
- 包含的基本事件 A = { 2 , 4 , 6 } A = \{2, 4, 6\} A={2,4,6},其中 m = 3 m = 3 m=3。
- 概率: P ( A ) = m n = 3 6 = 1 2 P(A) = \frac{m}{n} = \frac{3}{6} = \frac{1}{2} P(A)=nm=63=21。
例子 2:从一副52张的扑克牌中抽取一张
- 样本空间 Ω Ω Ω 包含所有52张牌,其中 n = 52 n = 52 n=52。
- 事件 A A A:抽取到红心。
- 包含的基本事件 A A A 是所有红心牌,有 m = 13 m = 13 m=13 张。
- 概率: P ( A ) = m n = 13 52 = 1 4 P(A) = \frac{m}{n} = \frac{13}{52} = \frac{1}{4} P(A)=nm=5213=41。
随机分配问题
将 n 个球随机分配到 N 个盒子中 \boldsymbol{将n个球随机分配到N个盒子中} 将n个球随机分配到N个盒子中
分配方式 | 不同分法的总数 |
---|---|
每个盒子能装任意多个球 | N n N^n Nn |
每个盒子最多只能容纳一个球 | A N n = N ! ( N − n ) ! A_N^n = \frac{N!}{(N-n)!} ANn=(N−n)!N! |
“某指定n个”:只有1种情况
“恰有n个”:有
C
N
n
C_N^n
CNn种情况
简单随机抽样问题
从含有 N 个球个盒子中 n 次简单随机抽样 \boldsymbol{从含有N个球个盒子中n次简单随机抽样} 从含有N个球个盒子中n次简单随机抽样
抽样方式 | 抽样法总数 |
---|---|
先后有放回取n次 | N n N^n Nn |
先后无放回取n次 | A N n = N ! ( N − n ) ! A_N^n = \frac{N!}{(N-n)!} ANn=(N−n)!N! |
任取n个 | C N n C_N^n CNn |
抓阄模型:“先后无放回取 k k k个球”与“任取 k k k个球”的概率相同。
1.2 几何概型求概率
P ( A ) = A (子区域:长度,面积) Ω (几何区域:长度,面积) \boldsymbol{P(A)=\frac{A(子区域:长度,面积)}{Ω(几何区域:长度,面积)}} P(A)=Ω(几何区域:长度,面积)A(子区域:长度,面积)
1.3 重要公式求概率
2 一维随机变量及其分布
2.1 随机变量及其分布函数的定义
离散型随机变量及其概率分布(概率分布)
连续型随机变量及其概率分布(分布函数)
2.2 离散型分布
0-1分布 X ∼ B ( 1 , p ) X \sim B(1,p) X∼B(1,p)
二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)
几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p)
首中即停止(等待型分布),具有无记忆性 首中即停止(等待型分布),具有无记忆性 首中即停止(等待型分布),具有无记忆性
超几何分布 X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N)
泊松分布 X ∼ P ( λ ) X\sim P(λ) X∼P(λ)
用于描述稀有事件的概率
用于描述稀有事件的概率
用于描述稀有事件的概率
离散型→离散型
2.3 连续型分布
均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)
指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ)
正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2)
正态分布,也叫高斯分布,是一种特定的概率分布。其曲线呈钟形,对称于均值。
正态分布的重要性源于以下几个原因:
-
自然现象的普遍性:很多自然和社会现象的测量结果近似服从正态分布,比如人的身高、考试成绩、误差分布等。原因是这些现象往往受到多种独立因素的共同影响,而根据中心极限定理,当这些影响因素足够多且相互独立时,其结果往往接近正态分布。
-
统计推断的基础:在统计学中,许多推断方法(如 t t t 检验、 z z z 检验、线性回归等)都基于数据服从正态分布的假设。正态分布的数学特性使得这些方法可以更有效地估计参数、检验假设。
-
中心极限定理的支持:无论数据原本的分布是什么样的,只要样本量足够大,样本均值的分布就会趋向于正态分布。这一理论使得我们可以在处理大样本时,使用正态分布来简化问题。
-
易于计算和理解:正态分布有简洁的数学表达式,且它的标准化(即转化为标准正态分布)使得很多复杂的计算变得简单、直观。
连续型→离散型
2.4 混合型分布
连续型→连续型(或混合型)
3 多维随机变量及其分布
3.1 定义
3.2 求联合分布
二维均匀分布与二维正态分布
3.3 求边缘分布
3.4 求条件分布
3.5 判独立
3.6 用分布
3.7(离散型,离散型)→离散型
3.8(连续型,连续型)→连续型
分布函数法
卷积公式法(建议用这个)
最值函数的分布
3.10(离散型,连续型)→连续型【全集分解】
3.11 离散型→(离散型,离散型)
3.12 连续型→(离散型,离散型)
3.13 (离散型,离散型)→(离散型,离散型)
3.14 (连续型,连续型)→(离散型,离散型)
3.15 (离散型,连续型)→(离散型,离散型)
4 数字特征
4.1 数学期望
4.2 方差
4.3 亚当夏娃公式
4.4 常用分布的期望和方差
分布 | 期望 E ( X ) E(X) E(X) | 方差 D ( X ) D(X) D(X) |
---|---|---|
0 − 1 0-1 0−1分布 X ∼ B ( p ) X \sim B(p) X∼B(p) | p p p | p ( 1 − p ) p(1-p) p(1−p) |
二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p) | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
泊松分布 X ∼ p ( λ ) X\sim p(λ) X∼p(λ) | λ λ λ | λ λ λ |
几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p) | 1 p \frac{1}{p} p1 | 1 − p p 2 \frac{1-p}{p^2} p21−p |
超几何分布(了解) X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N) | n M N \frac{nM}{N} NnM | n ⋅ M N ⋅ ( 1 − M N ) ⋅ N − n N − 1 n \cdot \frac{M}{N} \cdot \left(1 - \frac{M}{N}\right) \cdot \frac{N-n}{N-1} n⋅NM⋅(1−NM)⋅N−1N−n |
均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b) | E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b E ( X 2 ) = a 2 + a b + b 2 3 E(X^2) = \frac{a^2 + ab + b^2}{3} E(X2)=3a2+ab+b2 | D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(b−a)2 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = ( b − a ) 2 12 \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(b-a)^2}{12} n1i=1∑n(Xi−X)2=12(b−a)2 D ( X 2 ) = ( b − a ) 4 80 D(X^2) = \frac{(b - a)^4}{80} D(X2)=80(b−a)4 |
指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ) | E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1 E ( X 4 ) = 24 λ 4 E(X^4) = \frac{24}{\lambda^4} E(X4)=λ424 | D ( X ) = 1 λ 2 D(X)=\frac{1}{λ^2} D(X)=λ21 D ( X 2 ) = 20 λ 4 D(X^2) = \frac{20}{\lambda^4} D(X2)=λ420 |
正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2) | E ( X ) = μ E(X)=μ E(X)=μ E [ ( X − μ ) 4 ] = 3 σ 4 E[(X - \mu)^4] = 3\sigma^4 E[(X−μ)4]=3σ4 E [ ( X − X ‾ ) 4 ] = 3 ( n − 1 ) 2 σ 4 n 2 E[(X - \overline{X})^4] = \frac{3(n-1)^2\sigma^4}{n^2} E[(X−X)4]=n23(n−1)2σ4 | D ( X ) = σ 2 D(X)=σ^2 D(X)=σ2 D ( X 2 ) = 2 σ 4 + 4 μ 2 σ 2 D(X^2) = 2\sigma^4 + 4\mu^2\sigma^2 D(X2)=2σ4+4μ2σ2 D ( S 2 ) = 2 σ 4 n − 1 D(S^2)=\frac{2σ^4}{n-1} D(S2)=n−12σ4 |
标准正态分布 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1) | E ( X ) = 0 E(X)=0 E(X)=0 E ( X 4 ) = 3 E(X^4)=3 E(X4)=3 | D ( X ) = 1 D(X)=1 D(X)=1 D ( X 2 ) = 2 D(X^2)=2 D(X2)=2 |
瑞利分布(了解) X ∼ R ( σ ) X \sim \text{R}(\sigma) X∼R(σ) | π 2 σ \sqrt{\frac{π}{2}}σ 2πσ | ( 2 − π 2 ) σ 2 (2-\frac{π}{2})σ^2 (2−2π)σ2 |
卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n) | E ( X ) = n E(X)=n E(X)=n E ( X 4 ) = n ( n + 2 ) ( n + 4 ) E(X^4) = n(n + 2)(n + 4) E(X4)=n(n+2)(n+4) | D ( X ) = 2 n D(X)=2n D(X)=2n D ( X 2 ) = 4 n D(X^2)=4n D(X2)=4n |
t t t分布 t ∼ t ( n ) t\sim t(n) t∼t(n) | 0 0 0 | n n − 2 \frac{n}{n-2} n−2n |
4.5 协方差
4.6 相关系数
4.7 独立性与不相关性的判定
4.8 切比雪夫不等式
5 大数定律与中心极限定理
5.1 切比雪夫大数定律(均值依概率收敛到期望)
5.2 伯努利大数定律(频率依概率收敛到概率)
5.3 辛钦大数定律(均值依概率收敛到期望)
5.4 中心极限定理(n足够大时,均收敛于正态分布)
6 统计量及其分布
6.1 统计量
统计量是不含未知参数的随机变量的函数
统计量是不含未知参数的随机变量的函数
统计量是不含未知参数的随机变量的函数
6.2 标准正态分布分布的上α分位数
6.3 卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)
标准正态分布的平方 标准正态分布的平方 标准正态分布的平方
6.4 t分布 t ∼ t ( n ) t\sim t(n) t∼t(n)
标准正态分布的单打独斗
标准正态分布的单打独斗
标准正态分布的单打独斗
6.5 F分布 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)
卡方分布的单打独斗
卡方分布的单打独斗
卡方分布的单打独斗
6.6 正态总体下的常用结论
7 参数估计与假设检验
7.1 矩估计
矩估计法的核心思想是使得样本的样本矩等于总体的理论矩,从而通过这个等式来解出模型的参数。所谓“矩”就是随机变量的不同阶的期望,比如一阶矩是期望值,二阶矩是方差等。
参数估计能揭示数据规律,指导实际应用。描述数据、预测未来、优化决策和风险评估是参数估计的主要用途。
-
描述数据特性:估计参数帮助我们理解数据的分布特性,比如正态分布的均值(数据中心)和方差(数据分散程度)。
-
预测与推断:通过估计参数,可以进行未来预测或假设检验。例如,使用时间序列模型的参数预测市场趋势。
-
建模与优化:许多模型依赖参数估计来优化决策,如线性回归中的回归系数,用于预测或分类。
-
风险管理与模拟:估计参数后可以进行数据模拟,帮助评估金融风险或仿真系统性能。
-
理论验证与模型选择:通过实际数据检验理论模型,参数估计帮助选择更适合的模型。
7.2 最大似然估计(MLE)
最大似然估计(MLE)是一种广泛使用的统计方法,通过寻找使观测数据出现概率最大的参数,来估计模型中的未知参数。这些估计值对统计模型来说至关重要,因为它们帮助我们了解数据的分布特征。在很多实际问题中,真实的分布参数通常是未知的。例如,你可能知道某个数据集来自正态分布,但不知道这个正态分布的具体均值( μ \mu μ)和方差( σ 2 \sigma^2 σ2)是什么。MLE通过样本数据估计这些参数,从而得出对总体特征的最佳猜测。随着样本量的增加,MLE的估计值会趋近于真实参数,因为它在大样本情况下具有渐近无偏性和渐近有效性。
在实际应用中,这些参数估计值有广泛的用途:
-
模型预测: 在机器学习中,MLE的参数估计值用于构建预测模型。例如,在逻辑回归中,MLE得到的参数用来预测事件发生的概率。
-
风险评估: 在金融领域,MLE估计的参数帮助投资者评估和管理风险,比如估计资产回报率的波动性。
-
工程应用: 在质量控制中,MLE用于估计生产过程中产品的缺陷率,从而帮助改进生产流程。
-
医学研究: 在医学领域,研究人员通过MLE估计药物疗效的相关参数,从而确定最佳剂量或治疗方案。
总结而言,最大似然估计是一种强大而广泛应用的统计工具,无论是在学术研究还是实际应用中,都能为我们提供有价值的信息和决策支持。
7.3 常见分布的矩估计量和最大似然估计量
X服从的分布 | 矩估计量 | 似然估计量 |
---|---|---|
0 − 1 分布 0-1分布 0−1分布 | p ^ = X ‾ \hat{p}=\overline{X} p^=X | p ^ = X ‾ \hat{p}=\overline{X} p^=X |
B ( n , p ) B(n,p) B(n,p) | p ^ = X ‾ n \hat{p}=\frac{\overline{X}}{n} p^=nX | p ^ = X ‾ n \hat{p}=\frac{\overline{X}}{n} p^=nX |
G ( p ) G(p) G(p) | p ^ = 1 X ‾ \hat{p}=\frac{1}{\overline{X}} p^=X1 | p ^ = 1 X ‾ \hat{p}=\frac{1}{\overline{X}} p^=X1 |
P ( λ ) P(λ) P(λ) | λ ^ = X ‾ \hat{λ}=\overline{X} λ^=X | λ ^ = X ‾ \hat{λ}=\overline{X} λ^=X |
U ( a , b ) U(a,b) U(a,b) | a ^ = X ‾ − 3 n ∑ i = i n ( X i − X ‾ ) \hat{a}=\overline{X}-\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})} a^=X−n3i=i∑n(Xi−X) b ^ = X ‾ + 3 n ∑ i = i n ( X i − X ‾ ) \hat{b}=\overline{X}+\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})} b^=X+n3i=i∑n(Xi−X) | a ^ = m i n { X 1 , X 2 , . . . , X n } \hat{a}=min\{X_1,X_2,...,X_n\} a^=min{X1,X2,...,Xn} b ^ = m a x { X 1 , X 2 , . . . , X n } \hat{b}=max\{X_1,X_2,...,X_n\} b^=max{X1,X2,...,Xn} |
E ( λ ) E(λ) E(λ) | λ ^ = 1 X ‾ \hat{λ}=\frac{1}{\overline{X}} λ^=X1 | λ ^ = 1 X ‾ \hat{λ}=\frac{1}{\overline{X}} λ^=X1 |
N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2) | μ ^ = X ‾ \hat{μ}=\overline{X} μ^=X σ 2 ^ = 1 n ∑ i = i n ( X i − X ‾ ) \hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X}) σ2^=n1i=i∑n(Xi−X) | μ ^ = X ‾ \hat{μ}=\overline{X} μ^=X σ 2 ^ = 1 n ∑ i = i n ( X i − X ‾ ) \hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X}) σ2^=n1i=i∑n(Xi−X) |
7.4 无偏性:求期望
7.5 有效性:比方差,方差越小越有效
7.6 一致性(相合性):大数定律
常用切比雪夫不等式、辛钦大数定律判一致性
常用切比雪夫不等式、辛钦大数定律判一致性
常用切比雪夫不等式、辛钦大数定律判一致性
7.7 区间估计
7.8 假设检验
选择检验统计量
7.9 两类错误
第一类错误:弃真(直接算落入拒绝域的概率)
第二类错误:取伪(直接算落入收敛域的概率)