【深度学习】2.视觉问题与得分函数
计算机视觉任务
可以通过神经网络搜索是什么类别的动物。
图像实际就是含有数值的三维矩阵。
像素值从0-255可以表示亮度递增的参数。数字越大,像素点越亮。
最后的3表示三个颜色通道,常见的如JPG、RGB等。
现实场景容易发生各种遮蔽现象。
计算机判断实际已经超越人眼。
因此深度学习需要大量的遮蔽类的数据作为依据,用来判断之后的图片是不是遮蔽的,这就是深度学习最需要的东西。你让他解决什么问题,就给他传入什么数据就可以了。
视觉任务遇到的问题
k=3时,算最近的三个像素块,哪个多绿点就变成哪个,因此绿色的点属于三角。即周围什么多他就是什么,这就是K近邻算法。
K=5时,范围内临近的方块变多,因此k=3与k=5结果是不一样的。
用K近邻对图像进行分类:
矩阵对应元素相减后,得到B矩阵,B矩阵的元素数值之和作为一个判断标准,数值越小,表示测试image越像训练image。
选择最小的前一部分数据进行分类。
有几张将车识别成了马,可以发现有些类别做的好,有些类别做的不好,所以存在问题。
可以发现这类边框都是同类型的,但是主题不一样。因此在设计算法时,应该注重哪里是主体,哪里是边框或者背景。因此:
K近邻不知道哪里是主体,哪里是背景。
得分函数(神经网络)
共32×32×3=3072个像素点(特征),像素点用f中的x表示;每个像素点的重要性都不一样,比如眼睛这个像素点对判断这个是猫起了促进的作用,背景这个像素点对判断这个是猫起了抑制的作用。所以得出,每个像素点对于当前图像的重要程度都不一样,重要程度用f中的W表示权重参数。0
因此,3072个像素点x对应3072个权重参数W。
看下当前这个式子:
32×32×3=3072×1,即可以把猫这个图像看成3072行1列的矩阵。
对于公式, f ( x , W ) = W x + b f(x,W)=Wx+b f(x,W)=Wx+b
- 首先Wx,W就是每一类物体的权重,因此可以用10个W来代替猫,狗,飞机,大炮…等十个物体,如下计算,通过矩阵运算得出猫,狗…等十个物体的最终信息10×1型矩阵。
- 对于b,叫它偏置参数。通常情况下,W(权重项)对结果起到决定性作用,而对于b(偏置项)则起到了一个微调的操作。所谓微调,接上面举例,就是将Wx的结果即10×1的矩阵再加上一个10×1的矩阵b,b的每一项对应一个物体,b矩阵中元素之间没有任何关系。