机器学习9-卷积和卷积核2
机器学习9-卷积和卷积核2
- 卷积与边缘提取
- 边缘的种类
- 边缘检测
- 图像求导
- 解析
- 示例
- 图像求导公式:
- 解析
- 总结
- 图像梯度
- 噪声的影响
- 边缘检测目标
- 非极大值抑制
- 总结
卷积与边缘提取
边缘:图像中亮度明显而急剧变化的点
为什么要研究边缘?
- 编码图像中的语义与形状信息。
- 相对于像素表示边缘显然更加紧凑。
边缘的种类
图中展示了视觉边缘的几种类型,分别是:
- 表面法向不连续:这种边缘通常出现在物体表面方向发生突然变化的地方,例如瓶子的侧面与顶部的交界处。
- 深度不连续:这种边缘表示物体在深度方向上的突然变化,例如一个物体在另一个物体前面或后面。
- 表面颜色不连续:这种边缘出现在物体表面颜色发生突然变化的地方,例如瓶子上不同颜色的标签或图案。
- 光照不连续:这种边缘是由于光照条件的突然变化导致的,例如光线在物体表面的反射或阴影的边缘。
这些视觉边缘类型在计算机视觉和图像处理中非常重要,用于识别和分析图像中的物体及其结构。
边缘检测
图像求导
二维函数(f(x,y))的偏导数的定义式:
[ ∂ f ( x , y ) ∂ x = lim ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y)]
解析
- 偏导数的定义
- 对于一个多元函数(这里是二维函数( f ( x , y ) f(x,y) f(x,y))),偏导数表示函数在某一点沿着某一坐标轴方向的变化率。
- 对于( x x x)方向的偏导数( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)),它衡量了函数( f ( x , y ) f(x,y) f(x,y))在( x x x)轴方向上的变化情况,而( y y y)被视为常数。
- 极限的意义
- 偏导数的定义中使用了极限。这里的( ε \varepsilon ε)是一个趋近于0的变量。
- 当( ε \varepsilon ε)趋近于0时,( f ( x + ε , y ) − f ( x , y ) ε \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} εf(x+ε,y)−f(x,y))表示函数在( x x x)方向上的平均变化率。极限( lim ε → 0 \lim_{\varepsilon \to 0} limε→0)则表示当这个平均变化率在( ε \varepsilon ε)无限趋近于0时的精确变化率,即偏导数。
- 几何意义
- 在二维平面上,( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y))可以理解为函数( f ( x , y ) f(x,y) f(x,y))在( x x x)方向上的斜率。
- 例如,如果( f ( x , y ) f(x,y) f(x,y))表示一个曲面,那么( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y))在某一点的值就是该点处曲面在( x x x)方向上的切线斜率。
示例
假设( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2),求( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)):
- 根据定义,( ∂ f ( x , y ) ∂ x = lim ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y))。
- 代入(
f
(
x
,
y
)
=
x
2
+
y
2
f(x,y) = x^2 + y^2
f(x,y)=x2+y2):
- ( f ( x + ε , y ) = ( x + ε ) 2 + y 2 = x 2 + 2 x ε + ε 2 + y 2 f(x + \varepsilon,y) = (x + \varepsilon)^2 + y^2 = x^2 + 2x\varepsilon + \varepsilon^2 + y^2 f(x+ε,y)=(x+ε)2+y2=x2+2xε+ε2+y2)。
- ( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2)。
- 计算差值:
- ( f ( x + ε , y ) − f ( x , y ) = ( x 2 + 2 x ε + ε 2 + y 2 ) − ( x 2 + y 2 ) = 2 x ε + ε 2 f(x + \varepsilon,y) - f(x,y) = (x^2 + 2x\varepsilon + \varepsilon^2 + y^2) - (x^2 + y^2) = 2x\varepsilon + \varepsilon^2 f(x+ε,y)−f(x,y)=(x2+2xε+ε2+y2)−(x2+y2)=2xε+ε2)。
- 除以(
ε
\varepsilon
ε):
- ( f ( x + ε , y ) − f ( x , y ) ε = 2 x ε + ε 2 ε = 2 x + ε \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} = \frac{2x\varepsilon + \varepsilon^2}{\varepsilon} = 2x + \varepsilon εf(x+ε,y)−f(x,y)=ε2xε+ε2=2x+ε)。
- 取极限:
- ( lim ε → 0 ( 2 x + ε ) = 2 x \lim_{\varepsilon \to 0} (2x + \varepsilon) = 2x limε→0(2x+ε)=2x)。
所以,对于( f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2),( ∂ f ( x , y ) ∂ x = 2 x \frac{\partial f(x,y)}{\partial x} = 2x ∂x∂f(x,y)=2x)。
图像求导公式:
[ ∂ f ( x , y ) ∂ x ≈ f ( x + 1 , y ) − f ( x , y ) 1 \frac{\partial f(x,y)}{\partial x} \approx \frac{f(x + 1,y) - f(x,y)}{1} ∂x∂f(x,y)≈1f(x+1,y)−f(x,y)]
解析
- 公式含义
- 这个公式是一个近似计算图像在 ( x x x) 方向上的偏导数的方法。
- 这里的 ( f ( x , y ) f(x,y) f(x,y)) 表示图像在坐标 ( ( x , y ) (x,y) (x,y)) 处的像素值。
- 公式中的 ( ∂ f ( x , y ) ∂ x \frac{\partial f(x,y)}{\partial x} ∂x∂f(x,y)) 表示图像在 ( x x x) 方向上的偏导数,即在 ( x x x) 方向上像素值的变化率。
- 公式右侧的 ( f ( x + 1 , y ) − f ( x , y ) 1 \frac{f(x + 1,y) - f(x,y)}{1} 1f(x+1,y)−f(x,y)) 是一个差分运算,用来近似计算偏导数。具体来说,它计算了在 ( x x x) 方向上相邻两个像素(( x x x) 和 ( x + 1 x+1 x+1))的像素值之差。
- 近似原理
- 在连续函数中,导数是通过极限定义的,即 ( ∂ f ( x , y ) ∂ x = lim ε → 0 f ( x + ε , y ) − f ( x , y ) ε \frac{\partial f(x,y)}{\partial x} = \lim_{\varepsilon \to 0} \frac{f(x + \varepsilon,y) - f(x,y)}{\varepsilon} ∂x∂f(x,y)=limε→0εf(x+ε,y)−f(x,y))。
- 在离散的图像数据中,我们无法取极限,因此采用一个较小的增量(这里是 ( 1 1 1))来近似计算导数。这种方法称为差分近似。
- 应用场景
- 这种图像求导公式在图像处理中非常常见,例如在边缘检测、图像锐化等操作中。
- 通过计算图像的偏导数,可以找到图像中像素值变化剧烈的地方,这些地方通常对应于图像的边缘。
总结
这个公式提供了一种简单有效的方法来近似计算图像在 (x) 方向上的偏导数,通过相邻像素值的差来估计像素值的变化率,常用于图像处理中的各种操作。
使用卷积核进行求导:
图像梯度
图像的梯度就是图像两个方向导数组成的向量。梯度指向灰度变换最快的方向。
噪声的影响
如图所示。直接对函数fx求导。得到的求导结果会很混乱。解决方法就是先平滑。
经过三次卷积之后得到最终的求导结果。因为卷积有交换和结合律。可以交换卷积顺序来减少运算量。
高斯一阶偏导核进行边缘提取首先做了平滑,后做了去噪。
调整高斯一阶偏导核的方差大小,可以关注图像中不同的目标特征。方差越小特征越细腻,反之则反。
高斯核
- 消除高频成分(低通滤波器)
- 卷积核中的权值不可为负数
- 权值总和为(恒定区域不受卷积影响)
高斯一阶偏导核
- 高斯的导数
- 卷积核中的权值可以为负
- 权值总和是0 (恒定区域无响应)
- 高对比度点的响应值大
边缘检测目标
经过高斯一阶偏导核卷积后的到如下图片
非极大值抑制
此像素与梯度方向上前后像素进行对比,此像素比前后像素任何一个像素的梯度强度小就删掉此像素点,这种方式就是非极大值抑制方式。这样就保留了梯度最强的一个点。
在处理的过程中,肯定会存在噪声,会设一个门限过滤一些噪点。如图所示,门限设的过高或过低都会影响最终的目标。采用采用双阈值的方式来解决这个问题。
先用高阈值,将梯度比较大的边缘留下来,然后用低阈值找出边缘,保留与高阈值边缘有连接关系的低阈值边缘。最终得到想要的目标图像。
总结
1._用高斯一阶偏导核卷积图像
2. 计算每个点的梯度幅值和方向
3.非极大值抑制:
- 将宽的“边缘”细化至单个像素宽度
4.连接与國值(滞后):
- 定义两个阈值:低和高
- 使用高阈值开始边缘曲线,使用低阀值继续边缘曲线