【课堂笔记】定理:样本越多,测量的经验损失越接近真实损失
定理描述
给定一个模型
f
:
X
→
Y
f:X \to Y
f:X→Y,设数据分布
D
\mathcal{D}
D定义在
X
×
Y
X \times Y
X×Y,表示数据真实分布,且假设训练集和测试集的样本均从
D
\mathcal{D}
D中独立同分布(i.i.d)抽取。
设损失函数为
l
:
Y
×
Y
→
R
l:Y \times Y \to \mathbb{R}
l:Y×Y→R,假设
l
l
l是有界的,
∀
y
,
y
^
,
a
≤
l
(
y
,
y
^
)
≤
b
\forall y, \hat{y},a \le l(y, \hat{y}) \le b
∀y,y^,a≤l(y,y^)≤b
模型的期望风险定义为:
L
D
(
f
)
=
E
(
x
,
y
)
∼
D
[
l
(
f
(
x
)
,
y
)
]
L_{\mathcal{D}}(f) = \mathbb{E}_{(x,y) \sim \mathcal{D}}[l(f(x),y)]
LD(f)=E(x,y)∼D[l(f(x),y)],是模型泛化能力的理论指标
模型的经验分险定义为:
L
S
t
e
s
t
=
1
∣
S
t
e
s
t
∣
∑
(
x
,
y
)
∈
S
t
e
s
t
l
(
f
(
x
)
,
y
)
L_{S_{test}}=\frac{1}{|S_{test}|}\underset{(x,y) \in S_{test}}{\sum}l(f(x),y)
LStest=∣Stest∣1(x,y)∈Stest∑l(f(x),y),是模型在测试集上平均损失,用于估计
L
D
(
f
)
L_{\mathcal{D}}(f)
LD(f)
给定置信参数
δ
∈
(
0
,
1
)
\delta \in (0, 1)
δ∈(0,1)
有以下不等式成立:
Pr [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ)]≤δ
含义
定理提供了一个概率上界,保证模型
f
f
f的真实风险
L
D
(
f
)
L_{\mathcal{D}}(f)
LD(f)和测试集经验风险
L
S
t
e
s
t
(
f
)
L_{S_{test}}(f)
LStest(f)之间的差不超过某个阈值的概率至少为
1
−
δ
1 - \delta
1−δ
界限随着测试集大小
∣
S
t
e
s
t
∣
|S_{test}|
∣Stest∣的增加而减小(分母变大),表明更多测试数据能更准确地估计真实风险。
界限随着损失函数范围
b
−
a
b-a
b−a的增加而增大,反映了损失变异性对泛化误差的影响。
界限随着置信参数
δ
\delta
δ的减小而增大(因为
l
n
(
2
/
δ
)
ln(2/\delta)
ln(2/δ)增大),反映了更高置信度需要更宽松的界。
证明
令
Z
i
=
l
(
f
(
x
i
)
,
y
i
)
Z_i = l(f(x_i),y_i)
Zi=l(f(xi),yi),其中
(
x
i
,
y
i
)
∈
S
t
e
s
t
(x_i,y_i) \in S_{test}
(xi,yi)∈Stest,
i
=
1
,
2
,
.
.
.
,
m
,
m
=
∣
S
t
e
s
t
∣
i=1,2,...,m,m=|S_{test}|
i=1,2,...,m,m=∣Stest∣
由于
(
x
i
,
y
i
)
∼
D
(x_i,y_i) \sim \mathcal{D}
(xi,yi)∼D,
Z
i
Z_i
Zi是独立同分布的随机变量,且由假设,
Z
i
∈
[
a
,
b
]
Z_i \in [a,b]
Zi∈[a,b]。于是:
E [ Z i ] = E ( x , y ) ∼ D [ l ( f ( x ) , y ) ] = L D ( f ) \mathbb{E}[Z_i]=\mathbb{E}_{(x,y) \sim \mathcal{D}}[l(f(x),y)]=L_{\mathcal{D}}(f) E[Zi]=E(x,y)∼D[l(f(x),y)]=LD(f)
经验分险为:
L S t e s t ( f ) = 1 m ∑ m i = 1 Z i L_{S_{test}}(f)=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}Z_i LStest(f)=m1i=1∑mZi
引入霍夫丁不等式,它表面对于 m m m个独立随机变量 Z 1 , . . . , Z m Z_1, ..., Z_m Z1,...,Zm,每个 Z i ∈ [ a , b ] Z_i \in [a,b] Zi∈[a,b],有:
Pr [ ∣ 1 m ∑ i = 1 m Z i − E [ Z i ] ∣ ≥ ϵ ] ≤ 2 exp ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| \frac{1}{m} \sum_{i=1}^m Z_i - \mathbb{E}[Z_i] \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[ m1∑i=1mZi−E[Zi] ≥ϵ]≤2exp(−(b−a)22mϵ2)
代入后则有:
Pr [ ∣ L S test ( f ) − L D ( f ) ∣ ≥ ϵ ] ≤ 2 exp ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| L_{S_{\text{test}}}(f) - L_{\mathcal{D}}(f) \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[∣LStest(f)−LD(f)∣≥ϵ]≤2exp(−(b−a)22mϵ2)
确定一个特定的 ϵ \epsilon ϵ,令:
2 e x p ( − 2 m ϵ 2 ( b − a ) 2 ) = δ 2 2exp(-\frac{2m\epsilon^2}{(b-a)^2})=\frac{\delta}{2} 2exp(−(b−a)22mϵ2)=2δ
ϵ = ( b − a ) 2 l n ( 2 / δ ) 2 m = ( b − a ) 2 l n ( 2 / δ ) 2 ∣ S t e s t ∣ \epsilon=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2m}}=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2|S_{test}|}} ϵ=2m(b−a)2ln(2/δ)=2∣Stest∣(b−a)2ln(2/δ)
最终得到:
Pr [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ)]≤δ