当前位置：首页 > article >正文

opencv - py_imgproc - py_grabcut GrabCut 算法提取前景

article 2025/2/21 3:02:01

文章目录

使用 GrabCut 算法进行交互式前景提取
- 目标
- 理论
- 演示

使用 GrabCut 算法进行交互式前景提取

目标

在本章中

我们将了解 GrabCut 算法如何提取图像中的前景
我们将为此创建一个交互式应用程序。

理论

GrabCut 算法由英国剑桥微软研究院的 Carsten Rother、Vladimir Kolmogorov 和 Andrew Blake 设计。在他们的论文 “GrabCut”：使用迭代图切割进行交互式前景提取中。需要一种以最少的用户交互进行前景提取的算法，结果就是 GrabCut。

从用户的角度来看它是如何工作的？首先，用户在前景区域周围绘制一个矩形（前景区域应完全在矩形内）。然后算法迭代地对其进行分割以获得最佳结果。完成。但在某些情况下，分割效果并不好，例如，它可能将某些前景区域标记为背景，反之亦然。在这种情况下，用户需要进行精细的修饰。只需在存在错误结果的图像上进行一些描边即可。描边基本上表示“嘿，这个区域应该是前景，你将其标记为背景，在下一次迭代中对其进行更正”*或将其相反标记为背景。然后在下一次迭代中，您会得到更好的结果。

参见下图。第一个球员和足球被包裹在一个蓝色矩形中。然后用白色描边（表示前景）和黑色描边（表示背景）进行一些最后的修饰。我们得到了一个不错的结果。

在这里插入图片描述

那么背景会发生什么？

用户输入矩形。此矩形之外的所有内容都将被视为确定的背景（这就是之前提到您的矩形应包含所有对象的原因）。矩形内的所有内容都是未知的。同样，任何指定前景和背景的用户输入都被视为硬标记，这意味着它们不会在此过程中发生变化。
计算机根据我们提供的数据进行初始标记。它标记前景和背景像素（或硬标记）
现在使用高斯混合模型 (GMM) 来建模前景和背景。
根据我们提供的数据，GMM 学习并创建新的像素分布。也就是说，未知像素根据其与其他硬标记像素在颜色统计方面的关系被标记为可能的前景或可能的背景（这就像聚类）。
根据此像素分布构建图形。图中的节点是像素。添加了另外两个节点，源节点和接收器节点。每个前景像素都连接到源节点，每个背景像素都连接到接收器节点。
将像素连接到源节点/端节点的边的权重由像素为前景/背景的概率定义。像素之间的权重由边缘信息或像素相似性定义。如果像素颜色差异很大，则它们之间的边缘将获得较低的权重。
然后使用最小切割算法对图形进行分割。它将图形切成两个分离的源节点和接收器节点，具有最小成本函数。成本函数是所有被切割边的权重之和。切割后，所有连接到源节点的像素都变为前景，而连接到接收器节点的像素都变为背景。
该过程持续进行，直到分类收敛。

如下图所示（图片来源：http://www.cs.ru.ac.za/research/g02m1682/）

在这里插入图片描述

演示

现在我们使用 OpenCV 进行 grabcut 算法。OpenCV 有函数 cv.grabCut() 用于此目的。我们
首先将看到它的参数：

img - 输入图像
mask - 这是一个掩码图像，我们指定哪些区域是背景、前景或可能的背景/前景等。它通过以下标志完成，cv.GC_BGD、cv.GC_FGD、cv.GC_PR_BGD、cv.GC_PR_FGD，或者简单地将 0、1、2、3 传递给图像。
rect - 它是包含前景对象的矩形的坐标，格式为 (x,y,w,h)
bdgModel、fgdModel - 这些是算法内部使用的数组。您只需创建两个大小为 (1,65) 的 np.float64 类型零数组。
iterCount - 算法应运行的迭代次数。
mode - 它应该是 cv.GC_INIT_WITH_RECT 或 cv.GC_INIT_WITH_MASK 或两者结合
决定我们绘制的是矩形还是最终的修饰笔触。

首先让我们看看矩形模式。我们加载图像，创建一个类似的遮罩图像。我们创建 fgdModel 和 bgdModel。我们给出矩形参数。这一切都很简单。让算法运行 5 次迭代。模式应该是cv.GC_INIT_WITH_RECT，因为我们使用的是矩形。然后运行 grabcut。它会修改遮罩图像。在新的遮罩图像中，像素将用四个标志标记，表示如上所述的背景/前景。因此，我们修改了掩码，将所有 0 像素和 2 像素都设置为 0（即背景），将所有 1 像素和 3 像素都设置为 1（即前景像素）。现在我们的最终掩码已准备就绪。只需将其与输入图像相乘即可获得分割后的图像。

import numpy as np
import cv2 as cv
from matplotlib import pyplot as plt

img = cv.imread('messi5.jpg')
mask = np.zeros(img.shape[:2],np.uint8)

bgdModel = np.zeros((1,65),np.float64)
fgdModel = np.zeros((1,65),np.float64)

rect = (50,50,450,290)
cv.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv.GC_INIT_WITH_RECT)

mask2 = np.where((mask==2)|(mask==0),0,1).astype('uint8')
img = img*mask2[:,:,np.newaxis]

plt.imshow(img),plt.colorbar(),plt.show()

请参阅以下结果：

在这里插入图片描述

哎呀，梅西的头发不见了。*谁会喜欢没有头发的梅西？*我们需要把它带回来。所以我们将用 1 像素（确定的前景）进行精细修饰。同时，一些我们不想要的地面部分出现在图片中，还有一些徽标。我们需要移除它们。我们在那里进行一些 0 像素修饰（确定的背景）。所以我们修改了前面案例中得到的蒙版，就像我们现在所说的那样。

我实际上做的是，我在绘画应用程序中打开输入图像，并在图像上添加了另一个图层。使用绘画中的画笔工具，我在这个新图层上用白色标记错过的前景（头发、鞋子、球等），用黑色标记不需要的背景（如徽标、地面等）。然后用灰色填充剩余的背景。然后在 OpenCV 中加载该蒙版图像，使用新添加的蒙版图像中的相应值编辑我们获得的原始蒙版图像。检查下面的代码：

# newmask is the mask image I manually labelled
newmask = cv.imread('newmask.png',0)

# wherever it is marked white (sure foreground), change mask=1
# wherever it is marked black (sure background), change mask=0
mask[newmask == 0] = 0
mask[newmask == 255] = 1

mask, bgdModel, fgdModel = cv.grabCut(img,mask,None,bgdModel,fgdModel,5,cv.GC_INIT_WITH_MASK)

mask = np.where((mask==2)|(mask==0),0,1).astype('uint8')
img = img*mask[:,:,np.newaxis]
plt.imshow(img),plt.colorbar(),plt.show()