当前位置: 首页 > article >正文

机器学习----特征缩放

目录

一、什么是特征缩放:

二、为什么要进行特征缩放?

三、如何进行特征缩放:

        1、归一化:

        2、均值归一化:

        3、标准化(数据需要符合正态分布):


一、什么是特征缩放:

        通俗来讲就是将原本由于数据规范化的单位,导致所训练的数据集中各种数据的无单位数值差距较大,而我们通过归一化处理等方式使得数据范围均稳定在一个较小区间的过程。

二、为什么要进行特征缩放?

        我看了许多文章,就好比我们常常会由于其过于突出的一面而片面理解某个事物一样,对于值大的一方,我们会不知觉地倾向过去。对于这个点我们最好还是从一个等高线图来进行理解:

        以吴恩达老师的例子来说明,假设其购房:

总平方米:300平~2000平房间数量:1间~5间
w_1 = 50w_2 = 0.1
w_1 = 0.1w_2 = 50

        同时我们假设b = 50,对于其2000平米,5个房间的房子,其正常的价格为50万:

那么我们带入列表中两组不同的w1和w2,可以发现,其数值较大的因素:总平方*50 + 房间*0.1求得的值约为10万元,而另一组则大约为50万元。

        我们可以发现:我们更希望一个数值越小的,其对应的系数应该越大,那这与梯度下降有什么关系呢?

        我们这是便从等高线图中来理解:

        这个是其对应的J(\vec{w},b)  的等高线图,那么我们可以看看梯度下降需要走到其中最小点的话,他可能会怎么走: 

        由于size对应的轴范围太短,room对应的轴由过于长,要想通过梯度下降得到一能满足条件的最小值可能就会出现这种状况,导致其收敛减慢。 这便是为什么我们需要进行特征缩放,而如果图中并非椭圆而是圆形,其效果就是最好的情况。

        同时我们也可以结合欧氏距离进行理解。

三、如何进行特征缩放:

        1、归一化:

x^{'} = \frac{x - min(x)}{max(x) - min(x)} 

        其对应的取值区间为[0,1],当然也有更加灵活的形式:

x^{'} = a + \frac{x - min(x)}{max(x) - min(x)}(b - a)

        其对应的取值区间为[a,b],一般来说,a,b的值不要过大也不要过小,其 [-5 , 5] 都是适合的。

        2、均值归一化:

x^{'} = \frac{x - \bar{x}}{max(x) - min(x)}

        3、标准化(数据需要符合正态分布):

x^{'} = \frac{x - \bar{x}}{\sigma }

        其中分母对应x的标准差,其实这个式子就是正态分布的标准化的公式:

x^{'} = \frac{x - \mu}{\sigma }


http://www.kler.cn/a/273243.html

相关文章:

  • 通过外部链接启动 Flutter App(详细介绍及示例)
  • vLLM私有化部署大语言模型LLM
  • 源码编译安装httpd 2.4,提供系统服务管理脚本并测试(两种方法实现)
  • 《AI赋能鸿蒙Next,开启智能关卡设计新时代》
  • Spring Boot 2 学习全攻略
  • 回归预测 | MATLAB实RVM-Adaboost相关向量机集成学习多输入单输出回归预测
  • Mysql增删改查(详解)
  • 摄影第一课
  • java 程序连接 redis 集群 的时候报错 MUTLI is currently not supported in cluster mode
  • 阳光保险MySQL数据库平稳迁移OceanBase,稳定运营超700天
  • XDAG节点版本更新(0.6.5升级到0.7.0)
  • SpringBoot异常:类文件具有错误的版本 61.0, 应为 52.0的解决办法
  • 辐射全国、面向世界、聚焦未来——华为(深圳)全球具身智能产业创新中心正式成立
  • LeetCode刷题记录:(11)组合(初识回溯算法)
  • 前端路由跳转bug
  • 【iOS】——Blocks
  • Meson编译工具安装及使用Meson编译DPDK
  • 管理类联考–复试–英文面试–问题--规划介绍原因做法--汇总
  • Redis 八种常用数据类型详解
  • IDEA直接打包Docker镜像
  • 基于Qt 和python 的自动升级功能
  • 安卓面试题多线程16-20
  • 微服务:高并发带来的问题的容错方案
  • 通过点击按钮实现查看全屏和退出全屏的效果
  • 【面试自测】Java并发
  • Obsidian使用200+插件与70+种主题分享