当前位置：首页 > article >正文

【深度学习】2.视觉问题与得分函数

article 2025/4/2 14:35:40

计算机视觉任务

可以通过神经网络搜索是什么类别的动物。

图像实际就是含有数值的三维矩阵。

像素值从0-255可以表示亮度递增的参数。数字越大，像素点越亮。

最后的3表示三个颜色通道，常见的如JPG、RGB等。

现实场景容易发生各种遮蔽现象。

计算机判断实际已经超越人眼。

因此深度学习需要大量的遮蔽类的数据作为依据，用来判断之后的图片是不是遮蔽的，这就是深度学习最需要的东西。你让他解决什么问题，就给他传入什么数据就可以了。

视觉任务遇到的问题

k=3时，算最近的三个像素块，哪个多绿点就变成哪个，因此绿色的点属于三角。即周围什么多他就是什么，这就是K近邻算法。

K=5时，范围内临近的方块变多，因此k=3与k=5结果是不一样的。

用K近邻对图像进行分类：

矩阵对应元素相减后，得到B矩阵，B矩阵的元素数值之和作为一个判断标准，数值越小，表示测试image越像训练image。

选择最小的前一部分数据进行分类。

有几张将车识别成了马，可以发现有些类别做的好，有些类别做的不好，所以存在问题。

可以发现这类边框都是同类型的，但是主题不一样。因此在设计算法时，应该注重哪里是主体，哪里是边框或者背景。因此：

K近邻不知道哪里是主体，哪里是背景。

得分函数(神经网络)

共32×32×3=3072个像素点(特征)，像素点用f中的x表示；每个像素点的重要性都不一样，比如眼睛这个像素点对判断这个是猫起了促进的作用，背景这个像素点对判断这个是猫起了抑制的作用。所以得出，每个像素点对于当前图像的重要程度都不一样，重要程度用f中的W表示权重参数。0

因此，3072个像素点x对应3072个权重参数W。

看下当前这个式子：

32×32×3=3072×1，即可以把猫这个图像看成3072行1列的矩阵。

对于公式， $f (x, W) = W x + b$

首先Wx，W就是每一类物体的权重，因此可以用10个W来代替猫，狗，飞机，大炮…等十个物体，如下计算，通过矩阵运算得出猫，狗…等十个物体的最终信息10×1型矩阵。

对于b，叫它偏置参数。通常情况下，W（权重项）对结果起到决定性作用，而对于b（偏置项）则起到了一个微调的操作。所谓微调，接上面举例，就是将Wx的结果即10×1的矩阵再加上一个10×1的矩阵b，b的每一项对应一个物体，b矩阵中元素之间没有任何关系。

查看全文

http://www.kler.cn/a/512482.html

JavaScript笔记APIs篇03——DOM节点Bom操作本地存储正则表达式

Ant Design Vue 的 a-input-number 组件限制最小值和最大值

c++常见设计模式之适配器模式

Ubuntu如何安装redis服务？

【王树森搜素引擎技术】相关性03：文本匹配（TF-IDF、BM25、词距）

goodreads书籍评论爬取NRC Emotion Lexicon分析

Ae 表达式语言引用：Layer - 3D

excel 判断某个单元格的日期，如果超过3天，则在另一个单元格显示超过三天的公式

【前端学习路线】前端入门详细知识点学习路径（附学习资源）

VSCode下EIDE插件开发STM32

K8S中Pod控制器之DaemonSet(DS)控制器

Windows 服务器访问慢解决办法

如何使用Spring Boot框架整合Redis：超详细案例教程

日志（elk stack）基础语法学习，零基础学习

【每日一题】LeetCode - 最长公共前缀

WPF 使用webView显示浏览器网页

Edu邮箱免费获取Photoshop等设计软件

第七篇：vue3 计算属性：computed

Golang Gin系列-3：Gin Framework的项目结构

华宇TAS应用中间件与新支点多款软件及操作系统完成兼容互认证

计算机视觉任务

视觉任务遇到的问题

得分函数(神经网络)

相关文章：