Day9概率论
多维随机变量
多维随机变量是指由多个随机变量组成的向量这些随机变量可以是相关的,且通常用联合分布来描述它们的行为。
1.多维随机变量的定义
离散多维随机变量:如果每个随机变量(Xi)只能取有限或可数个值,则称该随机变量为离散多维随机变量。
连续多维随机变量:如果随机变量可以取任意实数值,则称为连续多维随机变量。
2.联合分布
联合分布函数:对于随机变量(mathbf{X}),其联合分布函数定义为:
边缘分布:可以通过对联合分布进行积分(对连续变量)或求和(对离散变量)来得到边缘分布。
3.条件分布
条件分布用于表示在已知某些变量的情况下,其他变量的分布。
4.相关性与独立性
独立性:若随机变量(X1,X2,ldots,Xn)是相互独立的,则其联合分布等于各个边缘分布的乘积.
相关性:通过协方差矩阵可以衡量多维随机变量之间的线性关系。
二维随机变量的概念
二维随机变量是由两个随机变量组成的向量,通常用来描述两个相关或不相关的现象。这两个随机变量可以是离散的,也可以是连续的。
二维离散型随机变量的分布
联合分布:对于两个离散型随机变量,联合分布指的是这两个随机变量同时取特定值的概率。可以用一个表格表示,每个单元格中的值表示对应两个随机变量取特定值的概率。
边缘分布:边缘分布是指其中一个随机变量的分布,可以通过对联合分布进行求和来得到,即将另一随机变量的所有可能值的概率加起来,得到所关注的随机变量的分布。
二维连续随机变量的分布
联合密度函数:对于两个连续随机变量,联合密度函数描述了这两个变量同时取特定值的概率密度。这个函数在某个区域内的积分可以给出这两个变量落在该区域的概率。
边缘密度函数:边缘密度函数是指某一个随机变量的密度函数,可以通过对联合密度函数在另一个随机变量的范围上进行积分来得到。
条件分布
条件分布用于描述在已知一个随机变量取特定值的情况下,另一个随机变量的分布。对于离散随机变量,可以通过联合分布除以已知随机变量的边缘分布来得到;对于连续随机变量,则通过联合密度函数除以边缘密度函数得到。
随机变量的独立性
两个随机变量被称为独立的,如果一个随机变量的发生不会影响另一个随机变量的发生。在离散情况下,这意味着联合分布等于各自边缘分布的乘积。在连续情况下,也是同样的原则,联合密度函数等于边缘密度函数的乘积。
二维离散型随机变量函数的分布
对两个离散型随机变量进行某种函数变换时,得到的新随机变量的分布可以通过组合原始随机变量的联合分布来计算。例如,如果有两个随机变量并定义一个新随机变量为它们的和或差,可以通过计算这些新值的出现概率来构建其分布。
二维随机变量提供了一个方式来理解和分析两个相关现象之间的关系。通过联合分布、边缘分布和条件分布等概念。
数学期望
定义:
数学期望是概率论中的一个重要概念,描述了一个随机变量的平均值或中心值,也被称为期望值或均值。
离散型随机变量的期望:
对于一个离散随机变量X,其可能的取值为x1, x2, ..., xn,对应的概率为p1, p2, ..., pn。则X的数学期望E(X)定义为这些可能取值与对应概率乘积的和。
例如:有三个人的体重分别为150、165、180,若他们体重的概率相等,则期望值即为平均体重。
连续型随机变量的期望:
对于一个连续随机变量X,其概率密度函数为f(x),则X的数学期望E(X)定义为f(x)与x乘积的积分。
随机变量函数的期望:
如果X是一个随机变量,g(X)是X的函数,则g(X)的数学期望E[g(X)]定义为X的所有可能取值xi带入g(X)后得到的新值与对应概率乘积的和(离散型)或积分(连续型)。
数学期望的性质:
常数的期望等于常数本身。
线性变换下,期望的运算规则为E(aX+b)=aE(X)+b。
若X、Y独立,则E(XY)=E(X)E(Y)。
方差
定义:
方差是统计学中用于衡量随机变量或一组数据的离散程度的统计量,反映了数据点与其平均值之间的偏离程度。
离散型随机变量的方差:
方差Var(X)或DX定义为每个可能取值xi与期望值E(X)差的平方与对应概率乘积的和。
连续型随机变量的方差:
方差Var(X)或DX定义为[x-E(X)]²与概率密度函数f(x)乘积的积分。
方差的性质:
常数的方差为0。
线性变换下,方差的运算规则为D(aX+b)=a²DX(a为常数)。
若X、Y独立,则D(X±Y)=DX+DY。
常见离散型的期望与方差
0-1分布
随机变量X只能取0或1,取1的概率为p,取0的概率为1-p。期望E(X)=p,方差Var(X)=p(1-p)。
二项分布
进行n次独立重复的伯努利试验,成功的次数X服从二项分布。期望E(X)=np,方差Var(X)=np(1-p)。
几何分布
在伯努利试验中,第k次试验才成功的概率分布。期望E(X)=1/p,方差Var(X)=(1-p)/p²。
泊松分布
描述单位时间或单位空间内随机事件发生的次数的分布。期望E(X)=λ,方差Var(X)=λ。
常见连续型的期望与方差
均匀分布
在区间[a, b]上的均匀分布。期望E(X)=(a+b)/2,方差Var(X)=(b-a)²/12。
指数分布
描述一个随机事件发生的时间间隔的分布。期望E(X)=1/λ,方差Var(X)=1/λ²。
正态分布
最常见的连续分布,呈钟形曲线。期望E(X)=μ,方差Var(X)=σ²。
协方差
定义:
协方差是衡量两个随机变量之间线性关系强度的一种统计量。如果两个随机变量的协方差为正,则表明它们之间存在正相关关系;如果为负,则表明存在负相关关系;如果为零,则表明它们之间没有线性关系。
性质:
协方差具有对称性,即Cov(X, Y) = Cov(Y, X)。
如果两个随机变量独立,则它们的协方差为零,但反之不一定成立。
协方差的值依赖于变量的尺度,因此在实际应用中,常常需要对变量进行标准化处理。
相关系数
为了克服协方差依赖于变量尺度的限制,引入了相关系数(Pearson相关系数)来衡量两个随机变量之间的线性关系。相关系数的值在-1和1之间,其中-1表示完全负相关,1表示完全正相关,0表示没有线性关系。
原点矩和中心距
原点矩
原点矩是描述随机变量在其原点(零点)周围的分布情况的统计量。对于随机变量X,其k阶原点矩定义为X的k次幂的期望值,即E(X^k)。
一阶原点矩
实际上是随机变量X的期望值(平均值)。
二阶原点矩
实际上是随机变量X的平方的期望值。
中心距
中心距是描述随机变量在其期望值(中心)周围的分布情况的统计量。对于随机变量X,其k阶中心距定义为[X-E(k的期望值,即E{[X-E(k}。
一阶中心距
实际上是零,因为期望值E(X)就是随机变量X的中心点,所以X与E(X)的差值的期望为零。
二阶中心距
实际上是随机变量X的方差DX,它描述了数据点与其平均值之间的偏离程度。