【统计信号处理基础——估计与检测理论】Vol1.Ch1. 引言
系列目录
【统计信号处理基础——估计与检测理论】Vol1.Ch2. 最小方差无偏估计
文章目录
- 1. 信号处理中的估计
- 2. 估计的数学问题
- 3. 估计量性能评估
- 习题
- 1.1
- 1.2
- 1.3
- 1.4
- 1.5
1. 信号处理中的估计
从离散时间波形或一组数据集中提取参数的问题。我们有
N
N
N点数据集
{
x
[
0
]
,
x
[
1
]
,
⋯
,
x
[
N
−
1
]
}
\{x[0],x[1],\cdots,x[N-1]\}
{x[0],x[1],⋯,x[N−1]},它与未知参数
θ
\theta
θ有关,我们希望根据数据来确定
θ
\theta
θ或定义估计量
θ ^ = g ( x [ 0 ] , x [ 1 ] , ⋯ , x [ N − 1 ] ) (1) \hat\theta=g(x[0],x[1],\cdots,x[N-1])\tag{1} θ^=g(x[0],x[1],⋯,x[N−1])(1)
其中 g g g是某个函数。我们面临类似上式中的 g g g的确定问题。
2. 估计的数学问题
在确定好的估计量时,第一步是建立数据的数学模型。由于数据固有的随机性,我们用它的概率密度函数(Probability density function, PDF)
来描述它,即
p
(
(
x
[
0
]
,
x
[
1
]
,
⋯
,
x
[
N
−
1
]
;
θ
)
p((x[0],x[1],\cdots,x[N-1];\theta)
p((x[0],x[1],⋯,x[N−1];θ)。PDF以未知量$\theta$为参数
,即我们有一族PDF,其中每一个PDF由于
θ
\theta
θ的不同而不同,我们用分号
表示这种关系。如果
N
=
1
N=1
N=1且
θ
\theta
θ表示均值,那么数据的PDF可能是
p ( x [ 0 ] ; θ ) = 1 2 π σ 2 exp [ − 1 2 σ 2 ( x [ 0 ] − θ ) 2 ] (2) p(x[0];\theta)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2\sigma^2}(x[0]-\theta)^2\right] \tag{2} p(x[0];θ)=2πσ21exp[−2σ21(x[0]−θ)2](2)
由于 θ \theta θ的值影响 x [ 0 ] x[0] x[0]的概率,因此我们从观测到的 x [ 0 ] x[0] x[0]的值能够推断出 θ \theta θ的值。在确定一个好的估计量时,PDF的这一特点很重要。在实际问题中,并没有给出PDF,而是要选择一个不仅与问题的约束和先验知识一致的,而且在数学上也容易处理的PDF。
假定数据由直线叠加随机噪声组成,即
x [ n ] = A + B n + w [ n ] , n = 0 , 1 , ⋯ , N − 1 (3) x[n]=A+Bn+w[n],\quad n=0,1,\cdots, N-1 \tag{3} x[n]=A+Bn+w[n],n=0,1,⋯,N−1(3)
对噪声的一个合理模型是 w [ n ] w[n] w[n]为白色高斯噪声(WGN),即 w [ n ] w[n] w[n]的每一个样本具有PDF N ( 0 , σ 2 ) \mathcal{N}(0,\sigma^2) N(0,σ2)(均值为零,方差为 σ 2 \sigma^2 σ2的高斯分布),且所有样本互不相关。未知参数是 A A A和 B B B,可表示为参数矢量 θ = [ A B ] T \pmb{\theta}=[A \ B]^T θ=[A B]T。令 x = [ x [ 0 ] , x [ 1 ] , ⋯ , x [ N − 1 ] ] T \mathbf{x}=[x[0],x[1],\cdots,x[N-1]]^T x=[x[0],x[1],⋯,x[N−1]]T,PDF为
p ( x ; θ ) = 1 ( 2 π σ 2 ) N 2 exp [ − 1 2 σ 2 ∑ n = 0 N − 1 ( x [ n ] − A − B n ) 2 ] (4) p(\mathbf{x};\pmb{\theta})=\frac{1}{(2\pi\sigma^2)^{\frac{N}{2}}}\exp\left[-\frac{1}{2\sigma^2}\sum_{n=0}^{N-1}(x[n]-A-Bn)^2\right] \tag{4} p(x;θ)=(2πσ2)2N1exp[−2σ21n=0∑N−1(x[n]−A−Bn)2](4)
(4)由 N N N个(2)式相乘得到(所有样本互不相关,服从相同的分布)。
任何得到的估计量的性能都与假定的PDF有关。我们希望得到的估计量是稳健的,这样PDF的微小变化不会严重影响估计量的性能。
基于(4)式那样的PDF的估计称为经典的估计,其中感兴趣的参数假定为确定的但却未知
。
为了将一些先验知识考虑进去,我们可以假定(4)中的
A
A
A不再是一个确定的参数,而是一个随机变量,并且给它指定PDF
。例如,根据先验知识,约束
A
A
A在
[
2800
,
3200
]
[2800,3200]
[2800,3200]间均匀分布。因而,任何估计量都将产生在这个范围内的值,这样的方法称为贝叶斯(Bayesian)估计
。我们要估计的这个参数将作为随机变量
θ
\theta
θ的一个现实,这样,数据由联合PDF来描述
p ( x , θ ) = p ( x ∣ θ ) p ( θ ) (5) p(\mathbf{x},\theta)=p(\mathbf{x|\theta})p(\theta)\tag{5} p(x,θ)=p(x∣θ)p(θ)(5)
其中 p ( θ ) p(\theta) p(θ)是先验PDF,概括了在数据观测以前关于 θ \theta θ的先验知识, p ( x ∣ θ ) p(\mathbf{x}|\theta) p(x∣θ)是条件PDF,概括了在已知 θ \theta θ的条件下由数据 x \mathbf{x} x提供的知识。
一旦指定PDF,问题就变成了确定最佳估计量的问题,或者成为像(1)式那样的数据的函数。一个估计量可以看成对 x \mathbf{x} x的每一个现实指定一个 θ \theta θ值的规则。 θ \theta θ的估计就是根据每一个给定的 x \mathbf{x} x的现实而获得的 θ \theta θ的值。
3. 估计量性能评估
将一组数据建模为
x [ n ] = A + w [ n ] (6) x[n]=A+w[n]\tag{6} x[n]=A+w[n](6)
其中 w [ n ] w[n] w[n]是零均值噪声过程,我们需要根据 x [ n ] x[n] x[n]来估计 A A A。直观来看,由于 A A A是 x [ n ] x[n] x[n]的平均电平,因此可以使用样本均值来估计 A A A,即
A ^ = 1 N ∑ n = 0 N − 1 x [ n ] (7) \hat{A}=\frac{1}{N}\sum_{n=0}^{N-1}x[n]\tag{7} A^=N1n=0∑N−1x[n](7)
此时会有两个疑问:
- A ^ \hat{A} A^是否接近 A A A?
- 有比样本均值更好的估计吗?
考虑
A
^
\hat{A}
A^和另一个估计量
A
ˇ
=
x
[
0
]
\check{A}=x[0]
Aˇ=x[0],评估这两个估计量的性能,可以证明谁的方差更小
。
首先证明每个估计量的均值是真值,即
E ( A ^ ) = E ( 1 N ∑ n = 0 N − 1 x [ n ] ) = 1 N ∑ n = 0 N − 1 E ( x [ n ] ) = A (8) E(\hat{A})=E\left(\frac{1}{N}\sum_{n=0}^{N-1}x[n]\right) =\frac{1}{N}\sum_{n=0}^{N-1}E(x[n])=A \tag{8} E(A^)=E(N1n=0∑N−1x[n])=N1n=0∑N−1E(x[n])=A(8)
E ( A ˇ ) = E ( x [ 0 ] ) = A (9) E(\check{A})=E(x[0])=A\tag{9} E(Aˇ)=E(x[0])=A(9)
其次方差为
var ( A ^ ) = var ( 1 N ∑ n = 0 N − 1 x [ n ] ) = 1 N 2 ∑ n = 0 N − 1 var ( x [ n ] ) = 1 N 2 N σ 2 = σ 2 N (10) \begin{align} \text{var}(\hat{A})&=\text{var}\left(\frac{1}{N}\sum_{n=0}^{N-1}x[n]\right)\\ &=\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x[n])\\ &=\frac{1}{N^2}N\sigma^2=\frac{\sigma^2}{N} \end{align} \tag{10} var(A^)=var(N1n=0∑N−1x[n])=N21n=0∑N−1var(x[n])=N21Nσ2=Nσ2(10)
(10)用到了不相关和相同方差的性质。由于
var ( A ˇ ) = var ( x [ 0 ] ) = σ 2 > var ( A ^ ) \text{var}(\check{A})=\text{var}(x[0])=\sigma^2>\text{var}(\hat{A}) var(Aˇ)=var(x[0])=σ2>var(A^)
估计是数据的函数,而数据是随机变量,所以估计也是随机变量
,它有许多可能的取值,它的性能完全只能由统计或者PDF来描述。
习题
1.1
根据物理意义, R R R的估计量可以是
R ^ = c τ ^ 0 2 \hat R=\frac{c\hat\tau_0}{2} R^=2cτ^0
由于 τ ^ 0 ∼ ( τ 0 , σ τ ^ 0 2 ) \hat\tau_0\sim(\tau_0,\sigma_{\hat\tau_0}^2) τ^0∼(τ0,στ^02),根据正态分布的性质, R ^ \hat R R^的PDF为
R ^ ∼ ( c τ 0 2 , c 2 4 σ τ ^ 0 2 ) \hat R\sim(\frac{c\tau_0}{2},\frac{c^2}{4}\sigma_{\hat\tau_0}^2) R^∼(2cτ0,4c2στ^02)
距离估计值的99%在真值的100m以内,及
p { ∣ R ^ − c τ 0 2 ∣ < 100 } = 99 % p\left\{\left|\hat R-\frac{c\tau_0}{2}\right| < 100\right\} = 99\% p{ R^−2cτ0 <100}=99%
等价于
p { ∣ R ^ − c τ 0 2 c 2 σ τ ^ 0 ∣ < 100 c 2 σ τ ^ 0 } = 99 % p\left\{\left|\frac{\hat R-\frac{c\tau_0}{2}}{\frac{c}{2}\sigma_{\hat\tau_0}}\right| < \frac{100}{\frac{c}{2}\sigma_{\hat\tau_0}}\right\} = 99\% p{ 2cστ^0R^−2cτ0 <2cστ^0100}=99%
不等式坐标为一个标准正态分布。通过查表(标准正态分布表)可知,对于一个标准正态分布X,有
p { ∣ X ∣ < 2.58 } ≈ 99 % p\left\{\left|X\right|<2.58\right\}\approx99\% p{∣X∣<2.58}≈99%
因此有
100 c 2 σ τ ^ 0 = 2.58 \frac{100}{\frac{c}{2}\sigma_{\hat\tau_0}}=2.58 2cστ^0100=2.58
故所求标准偏差为
σ τ ^ 0 = 2.6 us \sigma_{\hat\tau_0}=2.6\text{us} στ^0=2.6us
1.2
不正确。 θ \theta θ可以是任意值。
x x x是随机变量,未知参数 θ \theta θ是随机变量 x x x的函数,因此 θ \theta θ也是随机变量,不是确定值。
1.3
由于 x = θ + w x=\theta +w x=θ+w ,有
p ( x ; θ ) = p w ( x − θ ) p(x;\theta)=p_w(x-\theta) p(x;θ)=pw(x−θ)
如果 θ \theta θ与 w w w独立,则有
p ( x ∣ θ ) = p x θ ( x , θ ) p ( θ ) = p w θ ( x − θ , θ ) p ( θ ) = p w ( x − θ ) p ( θ ) p ( θ ) = p w ( x − θ ) p(x|\theta)=\frac{p_{x\theta}(x,\theta)}{p(\theta)}=\frac{p_{w\theta}(x-\theta,\theta)}{p(\theta)}=\frac{p_w(x-\theta)p(\theta)}{p(\theta)}=p_w(x-\theta) p(x∣θ)=p(θ)pxθ(x,θ)=p(θ)pwθ(x−θ,θ)=p(θ)pw(x−θ)p(θ)=pw(x−θ)
如果 θ \theta θ与 w w w不独立,则有
p ( x ∣ θ ) = p x θ ( x , θ ) p ( θ ) = p w θ ( x − θ , θ ) p ( θ ) = p w ∣ θ ( x − θ ∣ θ ) p ( θ ) p ( θ ) = p w ∣ θ ( x − θ ∣ θ ) p(x|\theta) =\frac{p_{x\theta}(x,\theta)}{p(\theta)} =\frac{p_{w\theta}(x-\theta,\theta)}{p(\theta)} =\frac{p_{w|\theta}(x-\theta|\theta)p(\theta)}{p(\theta)} =p_{w|\theta}(x-\theta|\theta) p(x∣θ)=p(θ)pxθ(x,θ)=p(θ)pwθ(x−θ,θ)=p(θ)pw∣θ(x−θ∣θ)p(θ)=pw∣θ(x−θ∣θ)
总的来说,有 p ( x ; θ ) ≠ p ( x ∣ θ ) p(x;\theta)\neq p(x|\theta) p(x;θ)=p(x∣θ)。
1.4
首先计算两个估计量的期望
E ( A ^ ) = 1 N ∑ n = 0 N − 1 E ( x [ n ] ) = 1 N ⋅ N A = N E(\hat A) =\frac{1}{N}\sum_{n=0}^{N-1}E(x[n])=\frac{1}{N}\cdot NA=N E(A^)=N1n=0∑N−1E(x[n])=N1⋅NA=N
E ( A ˇ ) = 1 N + 2 ( 2 E ( x [ 0 ] ) + ∑ n = 1 N − 2 E ( x [ n ] ) + 2 E ( x [ N − 1 ] ) ) = 2 A + ( N − 2 ) A + 2 A N + 2 = A E(\check A)=\frac{1}{N+2}\left(2E(x[0])+\sum_{n=1}^{N-2}E(x[n])+2E(x[N-1])\right) =\frac{2A+(N-2)A+2A}{N+2}=A E(Aˇ)=N+21(2E(x[0])+n=1∑N−2E(x[n])+2E(x[N−1]))=N+22A+(N−2)A+2A=A
两个估计量的期望相等。接下来计算两个估计量的方差
var ( A ^ ) = 1 N 2 ∑ n = 0 N − 1 var ( x [ n ] ) = N σ 2 N 2 = 1 N \text{var}(\hat A)=\frac{1}{N^2}\sum_{n=0}^{N-1}\text{var}(x[n]) =\frac{N\sigma^2}{N^2}=\frac{1}{N} var(A^)=N21n=0∑N−1var(x[n])=N2Nσ2=N1
var ( A ˇ ) = 1 ( N + 2 ) 2 ( 4 var ( x [ 0 ] ) + ∑ n = 1 N − 2 var ( x [ n ] ) + 4 var ( x [ N − 1 ] ) ) = 4 σ 2 + ( N − 2 ) σ 2 + 4 σ 2 ( N + 2 ) 2 = N + 6 ( N + 2 ) 2 \text{var}(\check A)=\frac{1}{(N+2)^2}\left(4\text{var}(x[0])+\sum_{n=1}^{N-2}\text{var}(x[n])+4\text{var}(x[N-1])\right) =\frac{4\sigma^2+(N-2)\sigma^2+4\sigma^2}{(N+2)^2}=\frac{N+6}{(N+2)^2} var(Aˇ)=(N+2)21(4var(x[0])+n=1∑N−2var(x[n])+4var(x[N−1]))=(N+2)24σ2+(N−2)σ2+4σ2=(N+2)2N+6
由于当 N > 2 N>2 N>2时有
var ( A ˇ ) − var ( A ^ ) = 2 N − 4 N ( N + 2 ) 2 > 0 \text{var}(\check A)-\text{var}(\hat A)=\frac{2N-4}{N(N+2)^2}>0 var(Aˇ)−var(A^)=N(N+2)22N−4>0
因此估计量 A ^ \hat A A^的方差更小,是更好的估计量。这与 A A A的无关。
1.5
A ^ \hat A A^并不是一个估计量,因为实现该估计量需要预先知道 A A A的值来确定SNR。