人工智能理论之opencv图像预处理、数据库、GUI布局的综合应用(图像预处理版块)
文章目录
- 前言
- 图像预处理
- 卷积核概念
- 图像平滑处理
- 高斯滤波
- 双边滤波
- 中值滤波
- Canny边缘检测
- 图像形态学操作
- 形态学梯度
- 顶帽
- 小结
- 图片预处理
- 1.引入库
- 图像预处理
- 错误尝试
- 成功运行
- 总结
前言
对前面学习综合应用的总结,不单是一个版块,而是三个版块综合到一起可以完成的智能系统的运用。
例如`以 pysimpleGui 作为界面 ,设计一个基于图像或者视频的识别系统,题目自定
要求:
1 要用到图像预处理操作
2 设计的业务逻辑尽量用到数据库操作
作为新手小白,完成这个练习写了一天半的代码,在AI辅助和同学的帮助下,依然没能完整完成一个合理运行的代码。接下来我会重新迅速过一遍关于之前的重点,并且每一个部分的难点和易错点进行分享,最后再分析我的源代码(出现的问题是可以运行GUI界面但是没办法进行数据库的链接,相当是只有形式)
目前定的题目和内容为车库车牌智能识别
图像预处理
在这部分我遇到的包括图片、文件路径的填充地址,包括对图像选择处理的方式都是只有简单的理解并没有很充足的认识,目前我们从最开始的代码一步一步进行回顾。
首先我们要明白为什么会有图像预处理,主要目的是为了改善图像质量、提取有用信息、减少冗余数据,从而提高后续处理的效率和准确性。如果我们要智能分析的对象(基于生活)不可能只有我们需要的数据,所以这就是我们第一步进行预处理的原因
卷积核概念
这一点在实际运用提到的地方不少,卷积核大小,一般为奇数
如:33、55、7*7
保证锚点在中间,防止位置发生偏移,在具体代码中很有很重要的涉及,不然在图像预处理总会出现图片有误的情况
卷积核大小,越大看到信息越多,提取特征和计算量也更大,在我自己第一次编写相关代码的时候,就出现偶数对于照片提取也有极大的限制。
图像平滑处理
希望对各种应用方式处理的原理,可以理解对哪种情况采用哪种处理方式,更加让我们去理解处理的原因,而不是生硬的去记住。
首先我们要明白为什么会有图像平滑处理这一步。图像中必定有噪声,而图像中的噪声区别于平时听到的声音,可以理解为图像中聒噪的、干扰的“声音“更加专业的解释为图像数据中的不必要的或多余的干扰信息。它妨碍了人们通过视觉器官对接收信息的理解。噪声在理论上可以定义为“不可预测,只能用概率统计方法来认识的随机误差”。因此,将图像噪声看成是多维随机过程是合适的,描述噪声的方法可以借用随机过程的描述,即用其概率分布函数和概率密度分布函数。
对图像噪声的分类我们也可以主要分为两个部分,外部噪声和内部噪声。外部噪声主要由外部环境因素引起,如光线变化、电磁干扰等。内部噪声则是由于设备本身的因素引起,如传感器噪声等。
这种种的说法我们更可以明白的是图像噪声的存在严重影响了图像的质量,使得我们视觉能接收到的信息变得模糊和不清晰,为了减少图中的噪声,可以采取一些更加专业的图像处理技术,接下来我们要做的便是图像降噪。
而图像平滑处理(高斯滤波、中值滤波、双边滤波)则可以让我们由于各种拍摄外部环境引起的噪点,或者内部因素引起的噪点进行减少。
高斯滤波
应用场景却不包括这些:
- 去除高斯噪声: 高斯滤波可以有效地去除高斯噪声,因为该滤波器在计算像素值时会对周围像素进行加权平均,从而抑制噪声的影响。
- 模糊处理: 由于高斯滤波会平均周围像素的值,因此它也可用于实现图像的模糊处理,例如在某些需求下需要模糊化处理的图像或区域。
- 提取大致轮廓: 由于高斯滤波会平滑图像细节,因此在一定程度上可以帮助提取图像的大致轮廓和结构特征。
采用的函数为cv2.GaussianBIUER
有三个参数(图像,高斯核的大小(通常以元组的形式进行指定width,height),高斯核在方向上的标准差)
import cv2
img = cv2.imread("images/renwu01.jpeg")
# 定义高斯核大小和标准差
ksize = (9, 9)
sigma = 3
# 对图像进行高斯模糊处理
blurred_image = cv2.GaussianBlur(img, ksize, sigma)
# 显示原始图像和滤波后的图像
cv2.imshow('old Image', img)
cv2.imshow('new Image', blurred_image)
cv2.waitKey(0)
cv2.destroyAllWindows()
双边滤波
适用于各种类型的图像,特别适合于那些需要平滑处理但仍保留边缘细节的图像,例如人脸识别,图像增加和图像去噪等领域
使用函数 cv2.bilateralFilter 可以对图像保持边缘清晰的同时也对图像进行平滑处理。
四个参数,(图像,滤波器的直径d,颜色空间的标准差sigmaColor,sigmaspace)
sigmaColor较大时候处理范围较大,但是图像细节信息丢失更多,较小时候,会选择颜色差异较小的像素进行平滑处理,更好保留边缘细节。
sigmaspace较大时候,更大空间被平滑处理,细节被进一步平滑,反之相反。
import cv2
img = cv2.imread("images/renwu02.png")
# 定义滤波器参数
d =30
sigmaColor = 100
sigmaSpace = 150
# 对图像进行双边滤波处理
filtered_image = cv2.bilateralFilter(img, d, sigmaColor, sigmaSpace)
# 显示原始图像和滤波后的图像
cv2.imshow('old Image', img)
cv2.imshow('new Image', filtered_image)
cv2.waitKey(0)
cv2.destroyAllWindows()
中值滤波
图像处理中常用的一种平滑滤波方法,其主要作用是去除图像中的胡椒噪声或其他类型的脉冲噪声。通过中值滤波可以有效地将这些异常值去除,从而使图像变得更加平滑。
中值滤波适用于各种类型的图像,特别适用于那些受到椒盐噪声干扰的图像。
函数为cv2.medianBlur() 图像进行中值滤波处理,去除图像中的斑点噪声
import cv2
img = cv2.imread("images/hujiao.png")
# 对图像进行高斯模糊处理
blurred_image = cv2.medianBlur(img,5)
# 显示原始图像和滤波后的图像
cv2.imshow('old Image', img)
cv2.imshow('new Image', blurred_image)
cv2.waitKey(0)
cv2.destroyAllWindows()
总结一下:高斯滤波重在模糊效果,双边滤波重在美颜效果,中值滤波虽然处理人物图像某些情况跟高斯滤波的情况视觉相差不大,但是如果遇到带有高斯噪音的情况,高斯滤波可以很好的处理,而中值滤波会破坏照片自然。而碰到带有含椒盐噪声的人物图像,高斯模糊会会使边缘也进行模糊,而中值滤波能有效果处理噪声并且保持图像的边缘和细节。
仅个人理解,欢迎大家讨论。
Canny边缘检测
适用于图像处理、计算机视觉和机器学习中的物体识别。图像分割等。
基本上在边缘检测之前先对图像进行灰度处理,理解有这几个方面:
1、首先如果是彩色图像,为三通道(R,G,B),而灰色为单通道,显著减少数据量和计算复杂度。
2、许多边缘检测法(Canny)都是基于灰度图像进行设计的。
3、彩色图像中的颜色信息会干扰边缘检测,当颜色变化与实际边缘无关的时候,灰度图像只关注亮度变化,更容易检测真正的边缘。灰度图像中保留亮度信息,并且直方图均衡化等方法进一步增强对比度,使得边缘化更加明显。
使用函数为cv2.Canny(图像,第一个阈值(边缘检测的低阈值),第二个阈值(边缘检测的高阈值))
- 低阈值:
- 低阈值用来识别可能的边缘像素。如果一个像素的梯度值大于低阈值,那么这个像素可能会被认为是边缘的一部分。
- 但是,单独依靠低阈值来识别边缘是不够的,因为它可能会导致很多虚假的边缘被识别出来,特别是那些由于噪声引起的边缘。
- 高阈值:
- 高阈值用于识别强烈的边缘像素。如果一个像素的梯度值大于高阈值,那么这个像素几乎可以肯定是边缘的一部分。
- 高阈值的存在可以有效地减少由于噪声引起的虚假边缘。
import cv2
# 读取并转换为灰度图
image = cv2.imread("images/car.png")
# 将图像从BGR到灰度图像的转换
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 应用 Canny 边缘检测
edges = cv2.Canny(image, 50, 80)
# 显示结果
cv2.imshow('边缘检测', edges)
cv2.waitKey(0)
cv2.destroyAllWindows()
这里是有无灰度转化后进行处理的对比,上图是经过处理后的对比。
图像形态学操作
这里就不太常对几个方法进行详细阐述,更多的是通过是我自己的理解,有想了解的伙伴可以去前面笔记查看更加详细的了解。
腐蚀操作:cv2.erode(图像,定义结构元素[类型: 结构元素(核),是一个二维数组。说明: 核定义了腐蚀操作的邻域范围。通常是一个正方形矩阵,如 np.ones((3, 3), np.uint8) 表示一个3x3的全1矩阵] ),iterations 腐蚀重复操作次数)
膨胀:cv2.dilate(图像、定义结构类型( 结构元素(核),是一个二维数组。
说明: 核定义了膨胀操作的邻域范围。通常是一个正方形矩阵,如 np.ones((5, 5), np.uint8) 表示一个5x5的全1矩阵),iterations膨胀重复操作次数)
开运算:先腐蚀后膨胀,cv2.morphologyEx(图像,cv2.MORPH_OPEN,kernel[一个5x5的全1矩阵,用于定义开运算的邻域范围。])
闭运算:先膨胀后腐蚀,cv.2morphologyEx(图像,cv2.MORPH_CLOSE,kernel)
对于开闭运算结果差别:假设你有一张包含小噪声点和小孔洞的图像:
开运算:处理后的图像会去除小噪声点,使对象边界更加平滑。
闭运算:处理后的图像会填补小孔洞,使对象更加完整。
总结
开运算:适用于去除小噪声点和断开连接的对象。
闭运算:适用于填补小孔洞和连接接近的对象。
形态学梯度
计算膨胀后的图像与腐蚀后的图像之间的差值来得到的,可以突出物体的边缘。
形态学梯度= 原图-腐蚀的图
kernel = np.ones((9, 9), np.uint8)
cv2.morphologyEx(图像,cv2.MORPH_GRADIENT,kernel)
import cv2
import numpy as np
# 读取图像
img = cv2.imread("images/xtx.gif")
# 定义结构元素
kernel = np.ones((9, 9), np.uint8)
# 执行腐蚀操作
eroded = cv2.morphologyEx(img, cv2.MORPH_GRADIENT,kernel)
# 显示结果
cv2.imshow('Original Image', img)
cv2.imshow('Eroded Image', eroded)
cv2.waitKey(0)
cv2.destroyAllWindows()
这里是新旧图的对比,可以看到通过操作让图形形态有更加明确的标记。
顶帽
顶帽: 原图减去开运算,得到大图形外的小图形
cv2.morphologyEX(img,cv2.MORPH_TOPHAT,kernel)
kernel = np.ones((7, 7), np.uint8)
import cv2
import numpy as np
# 读取图像
img = cv2.imread("images/kai.jpg")
# 定义结构元素
kernel = np.ones((7, 7), np.uint8)
# 执行腐蚀操作
eroded = cv2.morphologyEx(img, cv2.MORPH_TOPHAT,kernel)
# 显示结果
cv2.imshow('Original Image', img)
cv2.imshow('Eroded Image', eroded)
cv2.waitKey(0)
cv2.destroyAllWindows()
黑帽则是与顶帽相反的操作
kernel = np.ones((7, 7), np.uint8)
cv2.morphologylogyEx(img,cv2.MORPH_BALCKHAT,kernel)
在OpenCV中,形态学操作(如腐蚀、膨胀、开运算、闭运算等)使用的核(kernel)并没有默认值。你需要根据具体的应用需求手动定义核的形状和大小。核的选择对形态学操作的结果有很大影响,因此合理选择核是非常重要的。
使用具体情况可以根据图像继续采纳。
小结
通过对基本概念的整理,我们基本可以清晰的明确使用方法和使用情况,当然还有裁剪大小的这些在具体代码使用中再进行汇总和说明,接下来便开始车牌处理系统的中的预处理部分。
图片预处理
1.引入库
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
图像预处理
第一步尝试,在经过两个小时的调试后还是有很大的问题,如果大家想直接找到成功代码请移步第二步
错误尝试
import cv2
import numpy as np
from PIL import Image
import os
首先想好我们需要的库,计算机视觉处理所以选择有import cv2、关于数组的计算和运用有import numpy as np 、还有广泛的文件格式支持和图像处理方法有
from PIL import Image、使用os模块来遍历文件夹的所有图片文件。
接下来是我对自己代码的一些思考和逻辑的总结:
首先是对imread的说明,imread确实是可以读取,但是只是单张图片而不是一个文件夹,本文相当于要读取一个文件的图片,首先要明确,上次我预处理中所面对的对象不清晰,导致数据库也不能及时的读到刷新的数据。还有就是文件命名的问题使用自己通俗易懂的文件方便区别和防止后面逻辑的编写错误。
def process_images(file_path):
file_path = "C://Users//LENOVO//Desktop//opencv//car"
#获取文件夹内所有的文件名,列出指定文件夹内的所有文件名,并存储在列表 file_names 中.
file_names = os.listdir(file_path)
#过滤出图片文件(假设文件扩展名为 .png 或 .jpg)
#使用列表推导式从file_names中筛选出扩展名为.png或.jpg的文件名,储存在image_files
image_files = [file for file in file_names if file.endswith('.png') or file.endswith('.jpg')]
#使用 os.path.join 将文件夹路径 folder_path 和文件名 image_file 拼接成完整的文件路径 image_path
for image_file in image_files:
#构建完整的文件路径
image_path = os.path.join(file_path,image_file)
#读取图片
img = cv2.imread(image_path)
if img is None:
print(f"运行失败:{image_path}")
continue #持续进行处理下一个文件
成功运行
在经过了两个小时的调试,最终在这样的方法下无法做出来,这也对于每个代码人不可或缺经过的错误尝试,后面通过掩模的方式我成功将车牌识别的功能成功完成先一步一步为大家解答。
import cv2
import os
import paddlehub as hub
import numpy as np
from myocr.MyUtile import demo01
这里针对于demo01的说明
import paddlehub as hub
def identify(img):
ocr = hub.Module(name='chinese_ocr_db_crnn_server')
rs = ocr.recognize_text(images=[img])
return rs[0]['data'][0]['text']
需要了解的可以查看我前面对于ocr文字识别模型的讲解,这里是将需要文字调试先进行填写包。
在遇到的问题也遇到调用不到包的时候我则使用了调用代码
def demo01(image):
if image is None:
return "None"
try:
ocr = hub.Module(name='chinese_ocr_db_crnn_server')
rs = ocr.recognize_text(images=[image])
if rs and rs[0]['data']:
return rs[0]['data'][0]['text']
return "Not recognized"
except Exception as e:
print(f"Error in demo01: {e}")
return "Error"
进行检查测试,最终才进行调用,所以很大的一个收获是我们要学会及时的对当前写的代码进行检查。
import cv2
import os
import paddlehub as hub
import numpy as np
from myocr.MyUtile import demo01
#进行图片预处理
#定义一个函数为process_images file_path作为一个占位符,代表所有图片存在的文件夹
def demo01(image):
if image is None:
return "None"
try:
ocr = hub.Module(name='chinese_ocr_db_crnn_server')
rs = ocr.recognize_text(images=[image])
if rs and rs[0]['data']:
return rs[0]['data'][0]['text']
return "Not recognized"
except Exception as e:
print(f"Error in demo01: {e}")
return "Error"
def process_images(file_path):
# 初始化OCR模块
ocr = hub.Module(name="chinese_ocr_db_crnn_server")
#获取文件夹内所有的文件名,列出指定文件夹内的所有文件名,并存储在列表 file_names 中.
file_names = os.listdir(file_path)
#过滤出图片文件(假设文件扩展名为 .png 或 .jpg)
#使用列表推导式从file_names中筛选出扩展名为.png或.jpg的文件名,储存在image_files
image_files = [file for file in file_names if file.endswith('.png') or file.endswith('.jpg')]
#使用 os.path.join 将文件夹路径 folder_path 和文件名 image_file 拼接成完整的文件路径 image_path
for image_file in image_files:
#构建完整的文件路径
image_path = os.path.join(file_path,image_file)
#读取图片
img = cv2.imread(image_path)
if img is None:
print(f"运行失败:{image_path}")
continue #持续进行处理下一个文件
# 把图像转换成HSV空间
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
print(f"HSV image shape: {hsv_img.shape}")
# 获取蓝色所在的HSV范围
lower = np.array([100, 100, 50])
upper = np.array([140, 255, 255])
# 创建掩膜
mask = cv2.inRange(hsv_img, lower, upper)
# 把图像转换成灰度图像
ret, t_img = cv2.threshold(mask, 20, 255, cv2.THRESH_BINARY)
print(f"Threshold image shape: {t_img.shape}")
# 检测轮廓
contours, _ = cv2.findContours(t_img, cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
# 把图像转换成BGR图像
bgr_img = cv2.cvtColor(t_img, cv2.COLOR_GRAY2BGR)
# 画出检测的轮廓的点
out_img = cv2.drawContours(bgr_img, contours, -1, (0, 255, 0), 1)
cai_img = None
# 处理每个轮廓
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
if w > 100 and h > 50:
# 画出轮廓
cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 1)
cai_img = img[y:y + h, x:x + w]
if cai_img is None or cai_img.size == 0:
print(f"Invalid cropped image at ({x}, {y}, {w}, {h})")
continue
# 调用OCR识别函数
rs = demo01(cai_img)
print(f"车牌号码是: {rs}")
# 显示处理后的图像
cv2.imshow("Processed Image", img)
cv2.waitKey(0)
cv2.destroyAllWindows()
# 示例:调用函数处理指定目录下的图片
process_images(r"C:\Users\LENOVO\Desktop\opencv\car")
完整的代码以及我写的相关笔记都在注释行,首先收获很大的就是对于路径参数的使用,虽然之前会读取图片,可是在代码逻辑中对于参数赋值的情况形参实参的运用,作为新手的我总会有点小问题,本次对于图片路径和文件路径的书写逻辑有了进步。第二就是对于调试有了深刻认识,我想作为每一个代码人绕不开的弯,对于知识的应用都是我在前面笔记有书写的,在综合运用的时候书写的注意点要进行适当的总结。
总结
由于新手的独立第一次完成项目,可能遇到的问题错误点较多,放在一篇笔记中会有点看花眼,影响阅读和学习的感受,所以每一篇笔记更新一个版块。大家有想交流沟通和指正的可以和我多进行讨论,下一篇更新有关数据库的联动的知识。