当前位置: 首页 > article >正文

【数据分析】似然和极大似然估计

文章目录

  • 一、引入
  • 二、数学描述
    • 2.1 似然(Likelihood)
    • 2.2 极大似然估计(Maximum Likelihood Estimation, MLE)
    • 2.3 极大似然估计的性质
    • 2.4 极大似然估计的实现步骤
    • 2.5 示例:正态分布的极大似然估计

一、引入

来源: Youtube、Bilibili:动画讲编程

概率,是在特定情况下,某件事情发生的可能性,在事件没有发生前,就可以根据环境参数来预测该事件发生的概率。
在这里插入图片描述
如,抛硬币前并不知道结果那一面朝上,但是根据硬币的性质,可以推测,结果正、反面朝上的概率都为50%。

这个50%只在抛硬币前有意义,抛完之后,结果就确定了。

似然和概率相反,它根据已经确定的结果,来推测产生这个结果的可能环境,或者说环境中的某些参数

如,抛1000次隐蔽,8000次人像朝上,2000次数字朝上。从这个结果,可以推测这个硬币可能不是均匀质地的(即硬币的性质),进而推测:这个硬币,人像朝上的概率是80%,数字朝上的概率是20%(即硬币的一种参数)。

概率和似然图示:
在这里插入图片描述

极大似然估计(MLE): 已知样本的观测数据,反推,最有可能导致这样的结果的模型参数。

比如机器学习中的模型训练,就是已知一些样本的观测结果,来反推能产生这些结果的模型参数。最后得到了参数,就可以预测在这些参数下,其它样本的可能结果了。(用极大似然估计计算出来的参数来计算训练样本的值,在于训练样本实际的观测值比较,即得到损失函数,不断迭代模型,使得似然函数满足要求,即训练过程,当然了训练不是只能用极大自然估计)

举例:抛硬币10次,结果是 7次人像朝上,3次数字朝上。

再重复一次,极大似然估计是,找到参数,使得在该参数下,出现已知观测结果的可能性最大。这个例子里面已知观测结果就是 θ 7 ( 1 − θ ) 3 \theta^7(1-\theta)^3 θ7(1θ)3,就是要找到这个函数最大的 θ \theta θ值,即0.7。
在这里插入图片描述

字如其人,这个成语是不是也隐含似然的思想呢?

说到这里,应该已经搞清楚似然和极大似然估计的概念了。后面的文章就是数学表达了。


二、数学描述

2.1 似然(Likelihood)

在统计学中,“似然”是描述观察到的数据在某一模型下的可能性的度量。

简单来说,似然函数是给定某个模型参数的情况下,观测数据出现的概率。

与概率不同的是,概率通常是在已知参数的情况下预测未来的事件,而似然是已知数据的基础上反推模型参数的可能性。

假设有一个观测样本集 x = ( x 1 , x 2 , . . . , x n ) x = (x_1, x_2, ..., x_n) x=(x1,x2,...,xn),这些数据来自某个概率分布,且认为数据的生成模型由参数 θ \theta θ控制。似然函数 L ( θ ) L(\theta) L(θ)通常定义为在给定参数 θ \theta θ下,观察到样本数据的概率:

L ( θ ) = P ( x 1 , x 2 , . . . , x n ∣ θ ) L(\theta) = P(x_1, x_2, ..., x_n \mid \theta) L(θ)=P(x1,x2,...,xnθ)

这里, P ( x 1 , x 2 , . . . , x n ∣ θ ) P(x_1, x_2, ..., x_n \mid \theta) P(x1,x2,...,xnθ)是给定参数 θ \theta θ下,样本数据出现的联合概率。对于独立同分布的样本数据,似然函数可以写成每个数据点的概率密度函数或概率质量函数的乘积

L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta) = \prod_{i=1}^{n} p(x_i \mid \theta) L(θ)=i=1np(xiθ)

其中, p ( x i ∣ θ ) p(x_i \mid \theta) p(xiθ)是第 i i i个数据点 x i x_i xi在参数 θ \theta θ下的概率密度(或概率质量)函数。

2.2 极大似然估计(Maximum Likelihood Estimation, MLE)

极大似然估计(MLE)是一种用来估计参数 θ \theta θ的常用方法。它的基本思想是:通过最大化似然函数,来找到最有可能导致当前观测数据的参数值。

给定观测数据 x = ( x 1 , x 2 , . . . , x n ) x = (x_1, x_2, ..., x_n) x=(x1,x2,...,xn),极大似然估计的目标是找到参数 θ ^ \hat{\theta} θ^使得似然函数 L ( θ ) L(\theta) L(θ)达到最大,即:

θ ^ = arg ⁡ max ⁡ θ L ( θ ) \hat{\theta} = \arg \max_{\theta} L(\theta) θ^=argθmaxL(θ)

由于似然函数是参数 θ \theta θ的乘积形式,计算时通常会使用对数似然log-likelihood)函数。对数似然函数是似然函数的对数,通常可以简化计算并避免乘积带来的数值不稳定。对数似然函数定义为:

ℓ ( θ ) = log ⁡ L ( θ ) = log ⁡ ( ∏ i = 1 n p ( x i ∣ θ ) ) = ∑ i = 1 n log ⁡ p ( x i ∣ θ ) \ell(\theta) = \log L(\theta) = \log \left( \prod_{i=1}^{n} p(x_i \mid \theta) \right) = \sum_{i=1}^{n} \log p(x_i \mid \theta) (θ)=logL(θ)=log(i=1np(xiθ))=i=1nlogp(xiθ)

这样,极大似然估计就变为求解对数似然函数的最大值:

θ ^ = arg ⁡ max ⁡ θ ℓ ( θ ) \hat{\theta} = \arg \max_{\theta} \ell(\theta) θ^=argθmax(θ)

极大似然估计通常通过求对数似然函数的导数来得到参数的估计值。如果对数似然函数是光滑的,且存在唯一的极大值,那么通过求解该导数的零点可以得到极大似然估计。

2.3 极大似然估计的性质

极大似然估计具有一些非常重要的性质,尤其在大样本情况下,这些性质使其成为一种非常有效的参数估计方法:

  • 一致性(Consistency):随着样本量 n n n的增加,极大似然估计会收敛到真实的参数值,即 θ ^ \hat{\theta} θ^会趋近于 θ ∗ \theta^* θ,如果 θ ∗ \theta^* θ是生成数据的真实参数。

  • 渐进正态性(Asymptotic Normality):在样本量足够大的情况下,极大似然估计是正态分布的,且其分布的均值为真实参数 θ ∗ \theta^* θ,方差与信息矩阵(Fisher Information Matrix)有关。

  • 有效性(Efficiency):在某些条件下,极大似然估计能够达到Cramér-Rao下界(CRLB),即在所有无偏估计量中,极大似然估计具有最小的方差。

2.4 极大似然估计的实现步骤

假设有一组数据样本 { x 1 , x 2 , . . . , x n } \{x_1, x_2, ..., x_n\} {x1,x2,...,xn},其概率分布由未知参数 θ \theta θ控制。实现极大似然估计的一般步骤如下:

  1. 选择模型:选择一个合适的概率分布模型,假设观测数据来自该分布。比如,对于正态分布(高斯分布),模型可能是:

    p ( x i ∣ μ , σ ) = 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) p(x_i \mid \mu, \sigma) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) p(xiμ,σ)=2πσ2 1exp(2σ2(xiμ)2)

    其中 μ \mu μ σ \sigma σ是待估计的参数(正态分布的均值和标准差)。

  2. 构造似然函数:根据选择的模型,构造似然函数 L ( θ ) L(\theta) L(θ),对于正态分布来说,它就是所有样本点概率密度的乘积。

  3. 取对数似然:对似然函数取对数得到对数似然函数 ℓ ( θ ) \ell(\theta) (θ)

  4. 求最大化参数:求解对数似然函数的最大值,通常通过对 ℓ ( θ ) \ell(\theta) (θ)求导数并令其为零来找到最大化的参数值 θ ^ \hat{\theta} θ^

  5. 检验结果:可以通过样本量的增加来检验估计的稳定性,或者使用标准误差、置信区间等方法评估估计结果的可靠性。

2.5 示例:正态分布的极大似然估计

假设有一个样本 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn,数据来自正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),希望估计参数 μ \mu μ σ 2 \sigma^2 σ2

  1. 似然函数:正态分布的概率密度函数为:

    p ( x i ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) p(x_i \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) p(xiμ,σ2)=2πσ2 1exp(2σ2(xiμ)2)

    所以,似然函数为所有样本点的联合概率:

    L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) L(μ,σ2)=i=1n2πσ2 1exp(2σ2(xiμ)2)

  2. 对数似然函数:取对数得到对数似然函数:

    ℓ ( μ , σ 2 ) = ∑ i = 1 n log ⁡ ( 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) ) \ell(\mu, \sigma^2) = \sum_{i=1}^{n} \log \left( \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \right) (μ,σ2)=i=1nlog(2πσ2 1exp(2σ2(xiμ)2))

    ℓ ( μ , σ 2 ) = − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2) = -\frac{n}{2} \log (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 (μ,σ2)=2nlog(2πσ2)2σ21i=1n(xiμ)2

  3. 求极大似然估计:为了最大化对数似然函数,分别对 μ \mu μ σ 2 \sigma^2 σ2求偏导数并令其为零。

    • μ \mu μ求偏导并令其为零,得到 μ ^ = 1 n ∑ i = 1 n x i \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i μ^=n1i=1nxi,即样本均值。

    • σ 2 \sigma^2 σ2求偏导并令其为零,得到 σ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ^ ) 2 \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2 σ^2=n1i=1n(xiμ^)2,即样本方差。

通过这些步骤,可以得到参数 μ \mu μ σ 2 \sigma^2 σ2的极大似然估计。


http://www.kler.cn/a/452703.html

相关文章:

  • 命令行之巅:Linux Shell编程的至高艺术(中)
  • OpenCV相机标定与3D重建(36)计算两幅图像之间基本矩阵(Fundamental Matrix)的函数findFundamentalMat()的使用
  • vue中做一个最多输入一位小数且可以为负数的输入框(包含最前面最后面为小数点及多个-符号与前导零校验)
  • 专栏二十三:Python读取和分析空间数据的经验杂谈
  • Yolo11改进策略:Head改进|DynamicHead,利用注意力机制统一目标检测头部|即插即用
  • http协议的状态码
  • SQLSERVER、MYSQL LIKE查询特殊字符和转义字符相同与不同
  • 用Python开发高级游戏:实现3D迷宫游戏
  • 【Ubuntu】如何轻松设置80和443端口的防火墙
  • 如何使用Windows快捷键在多显示器间移动窗口
  • Git 代理配置——克隆仓库时遇到 OpenSSL SSL_ERROR_SYSCALL 的解决方案
  • 详解Ollama api (Windows环境)
  • 【QT开发自制小工具】PDF/图片转excel---调用百度OCR API接口
  • 【问题实录】服务器ping不通win11笔记本
  • 【每日学点鸿蒙知识】挖空样式、解密库性能问题、按钮下拉列表弹窗、Scroll组件回调事件问题、判断当前时间之后方法
  • wordpress网站用token登入开发过程
  • Idean 处理一个项目引用另外一个项目jar 但jar版本低的问题
  • 3D几何建模引擎Parasolid功能解析
  • dify的ChatFlow自定义上传图片并通过HTTP请求到SpringBoot后端
  • STM32F407 | Embedded IDE01 - vscode搭建Embedded IDE开发环境(支持JLINK、STLINK、DAPLINK)
  • DevOps实战:用Kubernetes和Argo打造自动化CI/CD流程(1)
  • Golang框架实战-KisFlow流式计算框架(9)-Cache/Params 数据缓存与数据参数
  • opencv中的色彩空间
  • 4.2 数据库分组查询
  • 机器学习(二)-简单线性回归
  • DVWA第二关 之命令注入