最小二乘法原理
最小二乘法原理
为了说明最小二乘法的基本原理,我们先举一个求标准米尺温度膨胀系数的例子。
米尺长度:
L
=
L
0
(
1
+
α
t
+
β
t
2
)
L=L_{0}(1+\alpha t+\beta t^{2})
L=L0(1+αt+βt2)。这里,
L
0
L_{0}
L0为米尺在
0
℃
0℃
0℃时的精确长度;
α
\alpha
α,
β
\beta
β为米尺的温度膨胀系数。
我们在不同温度么条件下测出一系列
L
L
L值,再据以求
α
\alpha
α与
β
\beta
β值。为了醒目起见,以
x
x
x,
y
y
y来代表
α
\alpha
α,
β
\beta
β两个未知的待求量,于是有
L
=
L
0
(
1
+
t
x
+
t
2
y
)
L=L_{0}(1+tx+t^{2}y)
L=L0(1+tx+t2y)
进一步改写为一般形式:
L
=
a
x
+
b
y
+
c
L=ax+by+c
L=ax+by+c
或
L
=
f
(
x
,
y
,
a
,
b
,
c
)
L=f(x,y,a,b,c)
L=f(x,y,a,b,c)
式中,
L
L
L,
a
a
a,
b
b
b,
c
c
c为可测量和经简单计算即可知道的量;
x
x
x,
y
y
y为待求量。
设对
L
L
L和
t
t
t各测取
n
n
n个值,当已知
L
0
L_{0}
L0时,即可计算出
n
n
n组相应的
a
a
a,
b
b
b,
c
c
c值(
a
=
L
0
t
a=L_{0}t
a=L0t;
b
=
L
0
t
2
b=L_{0}t^{2}
b=L0t2;
c
=
L
0
c=L_{0}
c=L0),于是可得条件方程组(或称测量方程组)如下:
L
1
=
f
(
x
,
y
,
a
1
,
b
1
,
c
1
)
L
2
=
f
(
x
,
y
,
a
2
,
b
2
,
c
2
)
⋮
L
n
=
f
(
x
,
y
,
a
n
,
b
n
,
c
n
)
}
⋯
⋯
(
1
)
\left.\begin{matrix} L_{1}=f(x,y,a_{1},b_{1},c_{1})\\ L_{2}=f(x,y,a_{2},b_{2},c_{2})\\ \vdots \\ L_{n}=f(x,y,a_{n},b_{n},c_{n}) \end{matrix}\right\}\cdots \cdots (1)
L1=f(x,y,a1,b1,c1)L2=f(x,y,a2,b2,c2)⋮Ln=f(x,y,an,bn,cn)⎭
⎬
⎫⋯⋯(1)
方程组中有
x
x
x,
y
y
y两个(一般为
m
m
m个)未知量,从方程组可看出:
(1)当
n
<
m
n<m
n<m,方程有无穷多个解。
(2)当
n
=
m
n=m
n=m,方程只有唯一解。
(3)当
n
>
m
n>m
n>m,则任选其中
m
m
m个方程式即可求出m个未知量。若取值绝对精确(不管测多少次,结果不变),则所求出的解也将是唯一的,即代人其余
n
−
m
n-m
n−m个方程式也能满足。但事实上因为不可避免地有测量误差存在,故将各测得值及求得的解代人其余各式后,并不能足
L
−
f
(
x
,
y
,
a
,
b
,
c
)
=
0
L-f(x,y,a,b,c)=0
L−f(x,y,a,b,c)=0。不过在
n
>
m
n>m
n>m的情况下,仍可找到一组最佳的或最恰当的解,将其代人各方程式后,虽不能使
L
−
f
(
x
,
y
,
a
,
b
,
c
)
=
0
L-f(x,y,a,b,c)=0
L−f(x,y,a,b,c)=0,但却是与零相差很微小的
υ
\upsilon
υ值(
υ
\upsilon
υ仍可称为残差),从方程组整体上看,这一组解可以是误差最小的唯一解。
当考虑了测量误差之后,将各测量值代人式(1),可写出如下误差方程组:
l
1
−
L
1
=
l
1
−
f
(
x
,
y
,
a
1
,
b
1
,
c
1
)
=
υ
1
l
2
−
L
2
=
l
2
−
f
(
x
,
y
,
a
2
,
b
2
,
c
2
)
=
υ
2
⋮
l
n
−
L
n
=
l
n
−
f
(
x
,
y
,
a
n
,
b
n
,
c
n
)
=
υ
n
}
⋯
⋯
(
2
)
\left.\begin{matrix} l_{1}-L_{1}=l_{1}-f(x,y,a_{1},b_{1},c_{1})=\upsilon _{1}\\ l_{2}-L_{2}=l_{2}-f(x,y,a_{2},b_{2},c_{2})=\upsilon _{2}\\ \vdots \\ l_{n}-L_{n}=l_{n}-f(x,y,a_{n},b_{n},c_{n})=\upsilon _{n} \end{matrix}\right\}\cdots \cdots (2)
l1−L1=l1−f(x,y,a1,b1,c1)=υ1l2−L2=l2−f(x,y,a2,b2,c2)=υ2⋮ln−Ln=ln−f(x,y,an,bn,cn)=υn⎭
⎬
⎫⋯⋯(2)
式中,
L
1
,
L
2
,
⋯
,
L
n
L_{1},L_{2},\cdots,L_{n}
L1,L2,⋯,Ln为需要直接测量的量值的待求估计值,
l
1
,
l
2
,
⋯
,
l
n
l_{1},l_{2},\cdots,l_{n}
l1,l2,⋯,ln为相应的有误差的实际测得值。
如要得到如上所述的一组最佳解,既从整体上看误差最小,其条件是式(2)中各方程式的残差
υ
i
\upsilon _{i}
υi的平方和为最小,即
∑
i
=
1
n
υ
i
2
=
最小
\sum_{i=1}^{n}\upsilon _{i}^{2}=最小
i=1∑nυi2=最小
也就是说,任取另一组解,其
∑
i
=
1
n
υ
′
i
2
\sum_{i=1}^{n}{\upsilon ^{'}}_{i}^{2}
∑i=1nυ′i2都将大于
∑
i
=
1
n
υ
i
2
\sum_{i=1}^{n}\upsilon _{i}^{2}
∑i=1nυi2。这就是最小二乘法最基本的概念,应用最小二乘法时,要注意误差数据必须是无偏的,即没有系统误差,相互独立,且服从正态分布这是用最小二乘法确定最佳估计值的前提条件。
设对某
x
x
x值进行
n
n
n次等精度测量,得一系列测得值
x
1
,
x
2
,
⋯
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn,相应的残差
υ
1
=
x
1
−
x
ˉ
,
υ
2
=
x
2
−
x
ˉ
,
⋯
,
υ
n
=
x
n
−
x
ˉ
\upsilon _{1}=x_{1}-\bar{x},\upsilon _{2}=x_{2}-\bar{x},\cdots,\upsilon _{n}=x_{n}-\bar{x}
υ1=x1−xˉ,υ2=x2−xˉ,⋯,υn=xn−xˉ。
x
ˉ
\bar{x}
xˉ为
x
i
x_{i}
xi的算术平均值,标准差为
σ
\sigma
σ。误差落在
υ
i
∼
υ
i
+
d
υ
\upsilon _{i}\sim \upsilon _{i}+d\upsilon
υi∼υi+dυ范围内的概率
P
i
P_{i}
Pi为
P
1
=
1
σ
2
π
e
−
υ
1
2
2
σ
2
d
υ
P
2
=
1
σ
2
π
e
−
υ
2
2
2
σ
2
d
υ
⋮
P
n
=
1
σ
2
π
e
−
υ
n
2
2
σ
2
d
υ
}
\left.\begin{matrix} P_{1}=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{\upsilon _{1}^{2}}{2\sigma ^{2}}}d\upsilon \\ P_{2}=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{\upsilon _{2}^{2}}{2\sigma ^{2}}}d\upsilon \\ \vdots \\ P_{n}=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{\upsilon _{n}^{2}}{2\sigma ^{2}}}d\upsilon \end{matrix}\right\}
P1=σ2π1e−2σ2υ12dυP2=σ2π1e−2σ2υ22dυ⋮Pn=σ2π1e−2σ2υn2dυ⎭
⎬
⎫
因为误差相互独立,根据概率乘法定理,误差
υ
1
,
υ
2
,
⋯
,
υ
n
\upsilon _{1},\upsilon _{2},\cdots,\upsilon _{n}
υ1,υ2,⋯,υn同时出现的概率
P
P
P应为
P
=
P
1
×
P
2
×
⋯
×
P
n
=
(
1
σ
2
π
)
n
e
−
1
2
σ
2
(
υ
1
2
+
υ
2
2
+
⋯
+
υ
n
2
)
(
d
υ
)
n
P=P_{1}\times P_{2}\times\cdots \times P_{n}=(\frac{1}{\sigma \sqrt{2\pi }})^{n}e^{-\frac{1}{2\sigma ^{2}}(\upsilon _{1}^{2}+\upsilon _{2}^{2}+\cdots +\upsilon _{n}^{2})}(d\upsilon )^{n}
P=P1×P2×⋯×Pn=(σ2π1)ne−2σ21(υ12+υ22+⋯+υn2)(dυ)n
按概率论的最大或然原理,测量结果的最可信赖值,应该是出现的机会最多的那个数值也就是出现的概率
P
P
P为最大时所求得的数值。可以这样来解,按随机误差特性,小误差出现的概率大于大误差出现的概率,因此,概率越大的测量值,就越可信赖。要使
P
P
P最大的条件,就是上式中负指数的分子(
υ
1
2
+
υ
2
2
+
⋯
+
υ
n
2
\upsilon _{1}^{2}+\upsilon _{2}^{2}+\cdots +\upsilon _{n}^{2}
υ12+υ22+⋯+υn2)为最小,即
∑
i
=
1
n
υ
i
2
=
最小
\sum_{i=1}^{n}\upsilon _{i}^{2}=最小
i=1∑nυi2=最小
这样就证明了最小二乘原理。
对于不等精度测量,可设
x
1
,
x
2
,
⋯
,
x
n
x_{1},x_{2},\cdots ,x_{n}
x1,x2,⋯,xn的标准差分别为
σ
1
,
σ
2
,
⋯
,
σ
n
\sigma_{1},\sigma_{2},\cdots,\sigma_{n}
σ1,σ2,⋯,σn。代入上式得:
P
=
P
1
P
2
⋯
P
n
=
1
σ
1
σ
2
⋯
σ
n
(
2
π
)
n
e
−
1
2
(
υ
1
2
σ
1
2
+
υ
2
2
σ
2
2
+
⋯
+
υ
n
2
σ
n
2
)
(
d
υ
)
n
P=P_{1}P_{2}\cdots P_{n}=\frac{1}{\sigma _{1}\sigma _{2}\cdots \sigma _{n}(\sqrt{2\pi )^{n}}}e^{-\frac{1}{2}(\frac{\upsilon _{1}^{2}}{\sigma _{1}^{2}}+\frac{\upsilon _{2}^{2}}{\sigma _{2}^{2}}+\cdots +\frac{\upsilon _{n}^{2}}{\sigma _{n}^{2}})}(d\upsilon )^{n}
P=P1P2⋯Pn=σ1σ2⋯σn(2π)n1e−21(σ12υ12+σ22υ22+⋯+σn2υn2)(dυ)n
P
P
P为最大的条件为
υ
1
2
σ
1
2
+
υ
2
2
σ
2
2
+
⋯
+
υ
n
2
σ
n
2
=
最小
\frac{\upsilon _{1}^{2}}{\sigma _{1}^{2}}+\frac{\upsilon _{2}^{2}}{\sigma _{2}^{2}}+\cdots +\frac{\upsilon _{n}^{2}}{\sigma _{n}^{2}}=最小
σ12υ12+σ22υ22+⋯+σn2υn2=最小
因相应的权比为
p
1
:
p
2
:
⋯
:
p
n
=
1
σ
1
2
:
1
σ
2
2
:
⋯
:
1
σ
n
2
p_{1}:p_{2}:\cdots :p_{n}=\frac{1}{\sigma _{1}^{2}}:\frac{1}{\sigma _{2}^{2}}:\cdots :\frac{1}{\sigma _{n}^{2}}
p1:p2:⋯:pn=σ121:σ221:⋯:σn21,故有
p
1
υ
1
2
+
p
2
υ
2
2
+
⋯
+
p
n
υ
n
2
=
∑
i
=
1
n
p
i
υ
i
2
=
最小
p_{1}\upsilon _{1}^{2}+p_{2}\upsilon _{2}^{2}+\cdots +p_{n}\upsilon _{n}^{2}=\sum_{i=1}^{n}p_{i}\upsilon _{i}^{2}=最小
p1υ12+p2υ22+⋯+pnυn2=i=1∑npiυi2=最小
按此条件求出来的最可信赖值,即为加权平均值。