当前位置：首页 > article >正文

【小白数学】为什么可以用拉格朗日乘子法求函数的极值【二】

article 2025/2/28 10:11:01

我们在上一篇【小白数学】- 为什么可以用拉格朗日乘子法求函数的极值【一】已经介绍了一种较为“严谨“的方法来说明为什么拉格朗日乘子法可以帮助我们求具有等式约束条件下的函数的极值。虽然在我们的例子中”等式约束“中只有一个等式。但其实很容易推广到多个等式约束的情况。所以这里也就不再赘述。本文主要兑现上一篇博客中提到第二种方法去理解：为什么可以用拉格朗日乘子法求函数的极值。

正式介绍之前，我们先回顾一些基础概念：一元函数和多元的函数的导数；

首先来看一个一元函数 $y=x^2$ ，该函数上任意一点 $x$ 的导数的导数 $\frac{dy}{dx} = 2x$ 。下图中红色的箭头表示图中A点（1,1）位置导数的方向。

在这里插入图片描述
也可以直观的理解曲线 $y=x^2$ 在A点的切线的方向就是这个点的导数方向。并且随着 $x$ 的增大 $\frac{dy}{dx}=2x$ 也不断增大，即对于函数 $y=x^2$ ， $x$ 的值越大，其所在点 $(x, y)$ 的导数就越大，或者说经过 $(x, y)$ 的切线的斜率就越大。

看完了一元函数的导数，我们来看一下二元函数的导数，假设我们有一个二元函数 $y= -(x_1-a)^2 - (x_2-b)^2 + c$ ，其中 $x_1,x_2$ 为变量，而 $a, b, c$ 为常量，为 $y$ 取得最大值时候的 $x_1, x_2$ 以及 $y$ 本身的值。

在这里插入图片描述
如果使用更数学的语言来表达就是：
$\begin{align*} y_{\max} &= \max(-(x_1-a)^2 - (x_2 -b)^2 + c) = c \\ a,b &= \arg \underset{x_1,x_2}{\max} \left [ -(x_1-a)^2 - (x_2-b)^2 + c \right] \end{align*}$
在看多元函数的导数之前，我们先看一下图中紫色的那一圈圈的线是什么？没错，那是”等高线“。我们专门构造的这个二元函数，实际上是一座”小山“，山顶的坐标是 $(a, b, c)$ 。在同样的高度（ $y$ 值相同）的山腰上的点，如果练成线，其实就变成了函数 $y$ 的等高线。

接下来我们再来看多元函数的导数（也称为梯度），是怎么样的：单个变量的导数叫”导数“，一组变量的导数叫”梯度“ （这组变量本身是函数 $y$ 上的一个点）。在上图中的二元函数中，我们有两个变量 $x_1,x_2$ ，那么他们的各自的导数可以表示为 $\frac{dy}{dx_1}, \frac{dy}{dx_2}$ ，由于 $y$ 是由 $x_1,x_2$ 共同作用生成的，所以我们又用偏导数的形式也表示他们各自的导数 $\frac{\partial y}{ \partial x_i}$ ( $i = 1, 2$ )，两者是等价的。所我们定义的这个二元函数的梯度可以表示为： $\nabla y = \begin{bmatrix*} \frac{\partial y}{\partial x_1} \\ \frac{\partial y}{\partial x_2} \end{bmatrix*}$ ，显然 $\nabla y$ 是一个向量。这个向量指向 $y$ 变化最剧烈的方向。

那么问题来了：我们先定义了”等高线“，然后又定义了”梯度“，这两者是什么关系？

答：”梯度“垂直于”等高线“，直观理解也很容易：连续等高线上的点具有相同的 $y$ 值；我们站在这个山坡的等高线上，肯定是朝着与等高线垂直的方向前进， $y$ 值的变化率最大。

在这里插入图片描述

如上图所示，所有的绿色小箭头都垂直于等高线，其实就是等高线上该点的梯度值。注意到图中有一个点A，经过该点的除了有绿色的箭头还有灰色的箭头，很显然可以看得出来，只有绿色的箭头方向是 $y$ 值变化最快的方向（也是上山最快的方向），而其他的灰色箭头的方向要么是”下山“，要么是”在周围随意闲逛“的方向。

理解梯度与等高线的关系对于我们接下来介绍的内容非常重要，所以没有看懂的同学建议再仔细看一下图。

说了一大圈，还没有说到拉格朗日乘子问题，下面我们来定义一个可以用拉格朗日乘子法求解的约束条件下的最值问题如下：

假设有函数 $f(x_1,x_2) = -(x_1-a)^2 - (x_2 - b)^2 + 4$ ，我们要求如下的最优化问题：
$\begin{align*} & \max f(x_1,x_2) \\ &s.t. \: a x_2 - d x_1 - d = 0 \\ &a,b,c,d\:均为大于0的常数 \end{align*} \qquad (1)$
在这个最优化问题中，我们发现其本质是求 $f(x_1, x_2)$ 与平面 $ax_2 - dx_1 -d = 0$ 的交线（如下图中棕红色的虚线所示）上的最大值。
在这里插入图片描述

我们按照之前找梯度的方法，分别为 $f(x_1, x_2)$ , 约束平面以及两者的交线 $L(x_1,x_2)$ 画出梯度：具体方法为先找等高线，在沿着等高线垂直的方向画梯度的方向。（不过大套路有时候也不好使，比如说垂直平面（与 $y$ 轴平行）上的点的梯度是什么？建议大家可以阅读这篇介绍梯度定义的文章：梯度的含义）。对于垂直平面上的梯度，其实在我们的场景下，还是只涉及 $x_1, x_2$ 两个维度，假设约束条件重新表示为 $g(x_1,x_2)= ax_2 - dx_1 - d$ ，则平面上每一点的梯度为 $[\frac{\partial g}{\partial x_1}, \frac{\partial g}{\partial x_2}]^\top$ ，即 $a]^\top$ (图中黄色箭头所指方向)。

我们注意观察棕色的交线上每一个点，图中我们分别为其标识了 $f(\cdot), g(\cdot), L(\cdot)$ 三者的梯度（分别使用紫色、黄色以及绿色），我们注意到由于 $g(\cdot)$ 是垂直平面，而 $f(\cdot)$ 是一个对称的圆形”山坡“，所以直观理解上，我们要找的极值应该在交线的最高位置。如图中的 $M$ 点，由于在这个点上 $L(\cdot)$ 取得了极大值，所以必然有 $\nabla L = 0$ , 而且在图中，可以看出来 $\nabla f$ 跟 $\nabla g$ 存在明显的线性关系(方向相反)，即 $\nabla f + \lambda \nabla g = 0$ . 所以从这个角度上理解，也确实是证明了拉格朗日乘子法为什么能够运用帮助我们找到约束条件下的函数极值。