当前位置：首页 > article >正文

【视频编码】视频编码中拉格朗日乘子法的简单理解

article 2024/10/22 13:44:39

1.问题的定义

在视频编码器中，有些工具用来优化编码质量，而有些工具用于提升编码速度。在相同的码率（Bitrate）下，每增加一项工具都会对编码器的编码质量（PSNR）产生影响。这自然的衍生了一个问题，在给定码率的情况下，如何使得编码质量最优，即编码损失（Distortion）最小，这就是率失真优化（Rate Distortion Optimization，RDO）的问题，能够用一个约束性公式可以描述：
$\mathop{\min D(B)}\limits_{B \in S},s.t.R(B) <R_c \tag{1}$
其中，D表示编码损失distortion，B表示使用的工具情况（或者说编码模式），R表示码率， $R_c$ 表示限制的码率。我们的目的是，给定码率，找到一个最优的 $B$ ，使得 $D (B)$ 最小，记最优 $B=B^*$ 。由视频编码中质量和码率之间的关系可知，一般情况下，码率越高，质量也越好，所以如果码率取最大值 $R_c$ ，损失也应该最小（至少是最小损失附近），即最优的 $B$ 为 $B^*$ ，有 $R(B^*)=R_c$ ，最优的 $B^*$ 对应于最小的损失。

2.问题的求解

$B$ 通常是由一系列编码器内部的模式组成的，即 $B=\{b_1,b_2,...,b_n\}$ 。先考虑最简单的情况，只有一个模式，即 $B=\{b_1\}$ ，此时能够根据 $R$ 的限制条件，求解出最佳的 $B^*$ ，因为这是一个一元函数，很容易求解。

假设现在 $B$ 由两个模式共同影响，即 $B=\{b_1,b_2\}$ 。令 $f(b_1,b_2)=D(b_1,b_2)$ ， $g(b_1,b_2)=R(b_1,b_2)-R_c$ 。由前述可知，当 $g(b_1,b_2)=0$ 时取得最佳的模式，根据这个等式可以获得 $b_1$ 和 $b_2$ 的关系，记为 $b_2=T(b_1)$ ，此时有 $f(b_1,b_2)=f(b_1,T(b_1))$ ，这样就变成了一个一元函数，一元函数的极值点位于导数为零的点，对 $f$ 进行求导，有
$\frac{df(b_1,b_2)}{db_1}=\frac{\partial f}{\partial b_1}+\frac{\partial f}{\partial b_2}\frac{db_2}{db_1}=0 \tag{2}$
如果上式成立，则对应的 $b_1$ 和 $b_2$ 就是最佳模式。

由隐函数求导公式可知
$\frac{db_2}{db_1}=-\frac{\frac{\partial g}{\partial b_1}}{\frac{\partial g}{\partial b_2}} \tag{3}$
因此，有
$\frac{df(b_1,b_2)}{db_1}=\frac{\partial f}{\partial b_1}-\frac{\partial f}{\partial b_2}\frac{\frac{\partial g}{\partial b_1}}{\frac{\partial g}{\partial b_2}}=0 \tag{4}$
简化(4)中的公式，有
$\frac{df(b_1,b_2)}{db_1}=f_{b_1}-f_{b_2}\frac{g_{b_1}}{g_{b_2}}=0 \tag{4}$
令 $\lambda = -\frac{f_{b_2}}{g_{b_2}}$ ，有
$\left\{ \begin{matrix} f_{b_2} + \lambda * g_{b_2} = 0 \\ f_{b_1} + \lambda * g_{b_1} = 0 \\ g(b_1,b_2) = 0 \end{matrix} \right. \tag{5}$
根据公式(5)，能够求解出对应的 $b_1$ 和 $b_2$ 。如果将公式(5)进行抽象化，获得
$\lambda * R = C \tag{6}$
其中，C为一个常数。如果此时再构建一个R-D曲线的话，那么这个R-D曲线与斜率为 $-\lambda$ 的直线的切点就是最佳R-D点，这个最佳R-D点对应的模式就是最佳的模式。
在这里插入图片描述