参数估计(一)(点估计)
文章目录
- 点估计和估计量的求法
- 点估计概念
- 矩估计法
- 极大似然估计法
- 参考文献
参数估计是数理统计中重要的基本问题之一。通常,称参数的可容许值的全体为参数空间,并记为 Θ \Theta Θ。所谓参数估计就是由样本对总体分布所含的未知参数做出估计。另外,在有些实际问题中,由于事先并不知道总体 X X X 的分布类型,而要对其某些数字特征,如均值、方差等做出估计,习惯上也把这些数字特征称为参数,对它们进行估计也属于参数估计范畴。
点估计和估计量的求法
点估计概念
设总体 X X X 的分布函数是 F ( x ; θ 1 , . . . , θ l ) F(x;\theta_1,...,\theta_l) F(x;θ1,...,θl),其中 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 是未知参数, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是来自总体 X X X 的样本, x 1 , . . . , x n x_1,...,x_n x1,...,xn 是相应的样本值,参数点估计就是研究如何构造适当的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn),并分别用观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn) 作为未知参数 θ i \theta_i θi 的估计。
通常,称用作估计的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn) 为估计量,称其观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn) 为估计值。
由于对不同的样本值,得到的参数估计值往往不同,因此,点估计问题的关键在于构造估计量的方法。下面介绍求估计量的一些常用方法。
矩估计法
设总体
X
X
X 的分布中含有
l
l
l 个未知参数
θ
1
,
.
.
.
,
θ
l
\theta_1,...,\theta_l
θ1,...,θl,又设总体
X
X
X 的前
l
l
l 阶原点矩
α
k
=
E
(
X
k
)
(
k
=
1
,
.
.
.
,
l
)
\alpha_k=E(X^k)(k=1,...,l)
αk=E(Xk)(k=1,...,l) 存在,且是
θ
1
,
.
.
.
,
θ
l
\theta_1,...,\theta_l
θ1,...,θl 的函数,即
α
k
=
α
k
(
θ
1
,
.
.
.
,
θ
l
)
\alpha_k=\alpha_k(\theta_1,...,\theta_l)
αk=αk(θ1,...,θl),令
α
k
(
θ
^
1
,
.
.
.
,
θ
^
l
)
=
A
k
,
k
=
1
,
.
.
.
,
l
\alpha_k(\hat{\theta}_1,...,\hat{\theta}_l)=A_k,\quad k=1,...,l
αk(θ^1,...,θ^l)=Ak,k=1,...,l
解此方程组可得
θ
^
1
,
.
.
.
,
θ
^
l
\hat{\theta}_1,...,\hat{\theta}_l
θ^1,...,θ^l,并将它们分别作为
θ
1
,
.
.
.
,
θ
l
\theta_1,...,\theta_l
θ1,...,θl 的估计量。这种求估计量的方法称为矩估计法,用矩估计法求得的估计量称为矩估计量。
例:设总体 X X X 的二阶矩存在, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本,求总体均值 μ \mu μ 与总体方差 σ 2 \sigma^2 σ2 的矩估计。
解:因
α
1
=
μ
,
α
2
=
σ
2
+
μ
2
\alpha_1=\mu, \alpha_2=\sigma^2+\mu^2
α1=μ,α2=σ2+μ2,令
{
μ
^
=
A
1
=
X
ˉ
σ
^
2
+
μ
^
2
=
A
2
=
1
n
∑
i
=
1
n
X
i
2
\begin{cases} \hat{\mu}=A_1=\bar{X} \\ \hat{\sigma}^2+\hat{\mu}^2=A_2=\frac{1}{n}\sum_{i=1}^n X_i^2 \end{cases}
{μ^=A1=Xˉσ^2+μ^2=A2=n1∑i=1nXi2
解得
μ
\mu
μ 与
σ
2
\sigma^2
σ2 的矩估计分别为
μ
^
=
X
ˉ
\hat{\mu}=\bar{X}
μ^=Xˉ
σ
^
2
=
A
2
−
X
ˉ
2
=
S
2
\hat{\sigma}^2=A_2-\bar{X}^2=S^2
σ^2=A2−Xˉ2=S2
极大似然估计法
以下用 X = ( X 1 , . . . , X n ) T \boldsymbol{X}=(X_1,...,X_n)^T X=(X1,...,Xn)T 表示样本, x = ( x 1 , . . . , x n ) T \boldsymbol{x}=(x_1,...,x_n)^T x=(x1,...,xn)T 表示样本点, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 表示样本分布。
极大似然法的提出是基于如下的想法:
当给定 θ \theta θ 时, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 度量样本 X \boldsymbol{X} X 在 x \boldsymbol{x} x 点发生的可能性。对于样本空间中的两个不同样本点 x 1 , x 2 ∈ X \boldsymbol{x}_1, \boldsymbol{x}_2 \in \mathcal{X} x1,x2∈X,如果有 f ( x 1 ; θ ) > f ( x 2 ; θ ) f(\boldsymbol{x}_1;\theta) > f(\boldsymbol{x}_2;\theta) f(x1;θ)>f(x2;θ),自然会认为样本 X \boldsymbol{X} X 更可能在 x 1 \boldsymbol{x}_1 x1 点发生。
现在换个角度来看待 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ)。当给定样本点 x \boldsymbol{x} x 时,对参数空间中的两个不同参数 θ 1 , θ 2 ∈ Θ \theta_1,\theta_2 \in \Theta θ1,θ2∈Θ,如果有 f ( x ; θ 1 ) > f ( x ; θ 2 ) f(\boldsymbol{x};\theta_1) > f(\boldsymbol{x};\theta_2) f(x;θ1)>f(x;θ2),那么会认为样本点 x \boldsymbol{x} x 更像是来自总体 f ( X ; θ 1 ) f(\boldsymbol{X};\theta_1) f(X;θ1),所以,数 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 的大小可作为参数 θ \theta θ 对产生样本观察值 x \boldsymbol{x} x 有多大似然性的一种度量。
当给定样本点
x
\boldsymbol{x}
x 时,称
f
(
x
;
θ
)
f(\boldsymbol{x};\theta)
f(x;θ) 为
θ
\theta
θ 的似然函数,记为
L
(
θ
;
x
)
L(\theta;\boldsymbol{x})
L(θ;x),即
L
(
θ
;
x
)
=
f
(
x
;
θ
)
=
{
∏
i
=
1
n
p
(
x
i
;
θ
)
,
总体
X
为离散型随机变量
∏
i
=
1
n
f
(
x
i
;
θ
)
,
总体
X
为连续型随机变量
L(\theta;\boldsymbol{x})=f(\boldsymbol{x};\theta)=\begin{cases} \prod_{i=1}^np(x_i;\theta), & 总体 X 为离散型随机变量 \\ \prod_{i=1}^nf(x_i;\theta), & 总体 X 为连续型随机变量 \end{cases}
L(θ;x)=f(x;θ)={∏i=1np(xi;θ),∏i=1nf(xi;θ),总体X为离散型随机变量总体X为连续型随机变量
而称
ln
f
(
x
;
θ
)
\ln f(\boldsymbol{x};\theta)
lnf(x;θ) 为对数似然函数,记为
ln
L
(
θ
;
x
)
\ln L(\theta;\boldsymbol{x})
lnL(θ;x)。
若有统计量
θ
^
≏
θ
^
(
X
)
\hat{\theta}\bumpeq \hat{\theta}(\boldsymbol{X})
θ^≏θ^(X),使得
L
(
θ
^
(
x
)
;
x
)
=
sup
θ
∈
Θ
{
L
(
θ
;
x
)
}
L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{L(\theta;\boldsymbol{x})\}
L(θ^(x);x)=θ∈Θsup{L(θ;x)}
或等价的,使得
ln
L
(
θ
^
(
x
)
;
x
)
=
sup
θ
∈
Θ
{
ln
L
(
θ
;
x
)
}
\ln L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{\ln L(\theta;\boldsymbol{x})\}
lnL(θ^(x);x)=θ∈Θsup{lnL(θ;x)}
则称
θ
^
(
X
)
\hat{\theta}(\boldsymbol{X})
θ^(X) 为参数
θ
\theta
θ 的极大似然估计量(Maximum Likelihood Estimators, MLE)。
例:设总体 X ∼ P ( λ ) , λ > 0 X \sim P(\lambda),\lambda>0 X∼P(λ),λ>0,试求参数 λ \lambda λ 的极大似然估计量。
解:
X
X
X 的概率函数为
P
{
X
=
x
}
=
λ
x
x
!
e
−
λ
,
x
=
0
,
1
,
2
,
.
.
.
P\{X=x\}=\frac{\lambda^x}{x!}e^{-\lambda},\quad x=0,1,2,...
P{X=x}=x!λxe−λ,x=0,1,2,...
故
λ
\lambda
λ 的似然函数为
L
(
λ
)
=
∏
i
=
1
n
(
λ
x
i
x
i
!
e
−
λ
)
=
e
−
n
λ
λ
∑
i
=
1
n
x
i
∏
i
=
1
n
(
x
i
!
)
L(\lambda)=\prod_{i=1}^n (\frac{\lambda^{x_i}}{x_i!}e^{-\lambda})=e^{-n\lambda}\frac{\lambda^{\sum_{i=1}^nx_i}}{\prod_{i=1}^n(x_i!)}
L(λ)=i=1∏n(xi!λxie−λ)=e−nλ∏i=1n(xi!)λ∑i=1nxi
对数似然函数为
ln
L
(
λ
)
=
−
n
λ
+
ln
λ
∑
i
=
1
n
x
i
−
∑
i
=
1
n
ln
(
x
i
!
)
\ln L(\lambda)=-n\lambda+\ln \lambda \sum_{i=1}^nx_i-\sum_{i=1}^n \ln(x_i!)
lnL(λ)=−nλ+lnλi=1∑nxi−i=1∑nln(xi!)
令
∂
ln
L
(
λ
)
∂
λ
=
−
n
+
1
λ
∑
i
=
1
n
x
i
=
0
\frac{\partial \ln L(\lambda)}{\partial \lambda}=-n+\frac{1}{\lambda}\sum_{i=1}^nx_i=0
∂λ∂lnL(λ)=−n+λ1i=1∑nxi=0
该似然方程有唯一解
λ
^
=
1
n
∑
i
=
1
n
x
i
=
x
ˉ
\hat{\lambda}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x}
λ^=n1∑i=1nxi=xˉ,又因
∂
2
ln
L
(
λ
)
∂
λ
2
∣
λ
=
x
ˉ
<
0
\frac{\partial^2 \ln L(\lambda)}{\partial \lambda^2}|_{\lambda=\bar{x}}<0
∂λ2∂2lnL(λ)∣λ=xˉ<0
故
λ
\lambda
λ 的极大似然估计量为
λ
^
=
X
ˉ
\hat{\lambda}=\bar{X}
λ^=Xˉ。
参考文献
[1] 《应用数理统计》,施雨,西安交通大学出版社。