先验期望准则
内容来源
贝叶斯统计(第二版)中国统计出版社
先验期望准则
对给定的决策问题,若在状态集 Θ \Theta Θ 上有一个正常的先验分布 π ( θ ) \pi(\theta) π(θ)(不是广义先验分布
则收益函数 Q ( θ , α ) Q(\theta,\alpha) Q(θ,α) 对 π ( θ ) \pi(\theta) π(θ) 的期望与方差称为
先验期望收益
Q ( a ) = E θ Q ( θ , a ) Q(a)=E^\theta Q(\theta,a) Q(a)=EθQ(θ,a)
收益的先验方差
V a r [ Q ( θ , a ) ] = E θ [ Q ( θ , a ) ] 2 − [ E θ Q ( θ , a ) ] 2 Var[Q(\theta,a)]=E^\theta[Q(\theta,a)]^2-[E^\theta Q(\theta,a)]^2 Var[Q(θ,a)]=Eθ[Q(θ,a)]2−[EθQ(θ,a)]2
是先验期望收益达到最大的行动 a ′ a' a′
Q ‾ ( a ′ ) = max a ∈ A Q ( a ) \overline{Q}(a')=\max_{a\in A}Q(a) Q(a′)=a∈AmaxQ(a)
称为先验期望准则下的最优行动
若此种最优行动不止一个,其中先验方差达到最小的行动称为二阶矩准则下的最优行动