当前位置：首页 > article >正文

机器学习9-卷积和卷积核2

article 2025/2/7 7:48:16

机器学习9-卷积和卷积核2

卷积与边缘提取
- 边缘的种类
- 边缘检测
- - 图像求导
  - - 解析
    - 示例
  - 图像求导公式：
  - - 解析
    - 总结
  - 图像梯度
  - - 噪声的影响
- 边缘检测目标
- - 非极大值抑制
  - 总结

卷积与边缘提取

边缘：图像中亮度明显而急剧变化的点

为什么要研究边缘？

编码图像中的语义与形状信息。
相对于像素表示边缘显然更加紧凑。

在这里插入图片描述

边缘的种类

在这里插入图片描述

图中展示了视觉边缘的几种类型，分别是：

表面法向不连续：这种边缘通常出现在物体表面方向发生突然变化的地方，例如瓶子的侧面与顶部的交界处。
深度不连续：这种边缘表示物体在深度方向上的突然变化，例如一个物体在另一个物体前面或后面。
表面颜色不连续：这种边缘出现在物体表面颜色发生突然变化的地方，例如瓶子上不同颜色的标签或图案。
光照不连续：这种边缘是由于光照条件的突然变化导致的，例如光线在物体表面的反射或阴影的边缘。

这些视觉边缘类型在计算机视觉和图像处理中非常重要，用于识别和分析图像中的物体及其结构。

边缘检测

在这里插入图片描述

图像求导

二维函数(f(x,y))的偏导数的定义式：

[ $\frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon}$ ]

解析

偏导数的定义
- 对于一个多元函数（这里是二维函数( $f (x, y)$ )），偏导数表示函数在某一点沿着某一坐标轴方向的变化率。
- 对于( $x$ )方向的偏导数( $\frac{\partial f(x,y)}{\partial x}$ )，它衡量了函数( $f (x, y)$ )在( $x$ )轴方向上的变化情况，而( $y$ )被视为常数。
极限的意义
- 偏导数的定义中使用了极限。这里的( $\varepsilon$ )是一个趋近于0的变量。
- 当( $\varepsilon$ )趋近于0时，( $\frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon}$ )表示函数在( $x$ )方向上的平均变化率。极限( $\lim_{\varepsilon \to 0}$ )则表示当这个平均变化率在( $\varepsilon$ )无限趋近于0时的精确变化率，即偏导数。
几何意义
- 在二维平面上，( $\frac{\partial f(x,y)}{\partial x}$ )可以理解为函数( $f (x, y)$ )在( $x$ )方向上的斜率。
- 例如，如果( $f (x, y)$ )表示一个曲面，那么( $\frac{\partial f(x,y)}{\partial x}$ )在某一点的值就是该点处曲面在( $x$ )方向上的切线斜率。

示例

假设( $f(x,y) = x^2 + y^2$ )，求( $\frac{\partial f(x,y)}{\partial x}$ )：

根据定义，( $\frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon}$ )。
代入( $f(x,y) = x^2 + y^2$ )：
- ( $\varepsilon,y) = (x + \varepsilon)^2 + y^2 = x^2 + 2x\varepsilon + \varepsilon^2 + y^2$ )。
- ( $f(x,y) = x^2 + y^2$ )。
计算差值：
- ( $\varepsilon,y) - f(x,y) = (x^2 + 2x\varepsilon + \varepsilon^2 + y^2) - (x^2 + y^2) = 2x\varepsilon + \varepsilon^2$ )。
除以( $\varepsilon$ )：
- ( $\frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} = \frac{2x\varepsilon + \varepsilon^2}{\varepsilon} = 2x + \varepsilon$ )。
取极限：
- ( $\lim_{\varepsilon \to 0} (2x + \varepsilon) = 2x$ )。

所以，对于( $f(x,y) = x^2 + y^2$ )，( $\frac{\partial f(x,y)}{\partial x} = 2x$ )。

图像求导公式：

[ $\frac{\partial f(x,y)}{\partial x} \approx \frac{f(x + 1,y) - f(x,y)}{1}$ ]

解析

公式含义
- 这个公式是一个近似计算图像在 ( $x$ ) 方向上的偏导数的方法。
- 这里的 ( $f (x, y)$ ) 表示图像在坐标 ( $(x, y)$ ) 处的像素值。
- 公式中的 ( $\frac{\partial f(x,y)}{\partial x}$ ) 表示图像在 ( $x$ ) 方向上的偏导数，即在 ( $x$ ) 方向上像素值的变化率。
- 公式右侧的 ( $\frac{f(x + 1,y) - f(x,y)}{1}$ ) 是一个差分运算，用来近似计算偏导数。具体来说，它计算了在 ( $x$ ) 方向上相邻两个像素（( $x$ ) 和 ( $x + 1$ )）的像素值之差。
近似原理
- 在连续函数中，导数是通过极限定义的，即 ( $\frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon}$ )。
- 在离散的图像数据中，我们无法取极限，因此采用一个较小的增量（这里是 ( $1$ )）来近似计算导数。这种方法称为差分近似。
应用场景
- 这种图像求导公式在图像处理中非常常见，例如在边缘检测、图像锐化等操作中。
- 通过计算图像的偏导数，可以找到图像中像素值变化剧烈的地方，这些地方通常对应于图像的边缘。

总结

这个公式提供了一种简单有效的方法来近似计算图像在 (x) 方向上的偏导数，通过相邻像素值的差来估计像素值的变化率，常用于图像处理中的各种操作。

使用卷积核进行求导：
在这里插入图片描述

图像梯度

图像的梯度就是图像两个方向导数组成的向量。梯度指向灰度变换最快的方向。

在这里插入图片描述

噪声的影响

在这里插入图片描述
如图所示。直接对函数fx求导。得到的求导结果会很混乱。解决方法就是先平滑。

在这里插入图片描述
经过三次卷积之后得到最终的求导结果。因为卷积有交换和结合律。可以交换卷积顺序来减少运算量。

在这里插入图片描述

在这里插入图片描述
高斯一阶偏导核进行边缘提取首先做了平滑，后做了去噪。

在这里插入图片描述
调整高斯一阶偏导核的方差大小，可以关注图像中不同的目标特征。方差越小特征越细腻，反之则反。

在这里插入图片描述

高斯核

消除高频成分（低通滤波器）
卷积核中的权值不可为负数
权值总和为（恒定区域不受卷积影响）

高斯一阶偏导核

高斯的导数
卷积核中的权值可以为负
权值总和是0 (恒定区域无响应）
高对比度点的响应值大

边缘检测目标

在这里插入图片描述

经过高斯一阶偏导核卷积后的到如下图片
在这里插入图片描述

非极大值抑制

在这里插入图片描述
此像素与梯度方向上前后像素进行对比，此像素比前后像素任何一个像素的梯度强度小就删掉此像素点，这种方式就是非极大值抑制方式。这样就保留了梯度最强的一个点。

在处理的过程中，肯定会存在噪声，会设一个门限过滤一些噪点。如图所示，门限设的过高或过低都会影响最终的目标。采用采用双阈值的方式来解决这个问题。
先用高阈值，将梯度比较大的边缘留下来，然后用低阈值找出边缘，保留与高阈值边缘有连接关系的低阈值边缘。最终得到想要的目标图像。