当前位置：首页 > article >正文

归一化——5种方法详细分类说明

article 2024/10/22 16:21:38

归一化（Normalization）是一种数据预处理技术，旨在将不同量纲、不同取值范围的数据转换到相同的尺度上，以便进行更加公平、有效的比较或分析。

通过归一化，数据被调整到一定的标准范围内，常见的范围有 [0, 1] 或 [-1, 1]，以消除不同特征在数量级上的差异。

一、常见的归一化方法

归一化的方法主要有以下几种，取决于具体的应用场景和数据特征：

1. Min-Max 归一化（Min-Max Normalization）

Min-Max 归一化是将数据线性映射到 [0, 1] 范围内。它的计算公式如下：

$x^{'}=\frac{x-x_{min}}{x_{max}-x_{min}}$

其中：

$x$ 是原始数据，

$x_{min}$ 是数据的最小值，

$x_{max}$ 是数据的最大值，

$x^{'}$ 是归一化后的数据，值域在[0，1]之间。

优点：保持数据间的比例关系，简单易行，适合有固定上下界的数据场景。

缺点：对极端值（outliers）敏感，如果数据中存在极端值，所有数据都可能被压缩到很小的区间。

例子：假设某个特征的数据范围为 [100, 500]，如果要将它归一化到 [0, 1]，对于某个数据点 200，则归一化计算为：

$x^{'}=\frac{200-100}{500-100}=\frac{100}{400}=0.25$

2. Z-score 归一化（标准化，Z-score Normalization）

Z-score 归一化通过减去均值再除以标准差，使得数据呈标准正态分布，均值为 0，标准差为 1。其公式为：

$x^{'}=\frac{x-\mu }{\sigma }$

其中：

$x$ 是原始数据，

$\mu$ 是数据的均值，

$\sigma$ 是数据的标准差，

$x^{'}$ 是归一化后的数据，具有零均值和单位标准差。

优点：不受极端值的影响，适合处理具有正态分布的数据。

缺点：如果数据分布不是高斯分布，效果可能较差；不能保证数据范围在 [0, 1] 之间。

例子：假设数据的均值为 200，标准差为 50，某个数据点为 300，计算 Z-score 归一化为：

$x^{'}=\frac{300-200}{50}=2$

3. 最大值归一化（Max Abs Scaling）

最大值归一化是将数据除以它的绝对最大值，使数据的范围归一化到 [-1, 1] 之间。其公式为：

$x^{'}=\frac{x}{\left | x_{max} \right |}$

其中：

$x_{max}$ 是数据的最大绝对值，

$x^{'}$ 是归一化后的数据，范围在 [-1, 1] 之间。

优点：简单快速，适合在数据分布中心为零时使用。

缺点：仍然对极端值敏感。

例子：假设数据的最大绝对值为 500，某个数据点为 250，归一化结果为：

$x^{'}=\frac{250}{500}=0.5$

4. 小数定标归一化（Decimal Scaling Normalization）

小数定标归一化通过将数据除以一个 10 的整数次幂，使归一化后的数据范围在 [-1, 1] 之间。其公式为：

$x^{'}=\frac{x}{10^{j}}$

其中：

$j$ 是数据的最大值 $\left | x_{max} \right |$ 的位数（即 $\left \lceil log_{10}(x_{max}) \right \rceil$ ）。

优点：适合当数据范围比较固定且易于计算时使用。

例子：假设数据的最大值为 987，最大位数为 3，则将每个数据除以 $10^{3}$ 进行归一化，例如数据点 250：

$x^{'}=\frac{250}{10^{3}}=0.25$

5. 向量归一化（Vector Normalization）

向量归一化通常用于将向量的模长标准化，使整个向量的长度为 1。常用于文本处理、图像处理等领域。公式为：

$x^{'}=\frac{x}{\left \| x \right \|}$

其中 $\left \| x \right \|$ 是向量 $x$ 的欧几里得范数，即：

$\left \| x \right \|=\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots +x_{n}^{2}}$

优点：在处理向量（如图像、文本等）的任务中非常有用，可以消除向量长度差异带来的影响。

例子：假设有一个向量[3，4]，其模长为 $\sqrt{3^{2}+4^{2}}=5$ ,归一化后得到的向量为：

二、不同归一化方法的应用场景

Min-Max 归一化：常用于数据范围已知，且目标是将数据归一化到固定范围（如 [0, 1]）的场景，广泛应用于神经网络等需要定量计算的数据模型中。
Z-score 归一化：适合数据分布为正态分布或需要消除量纲影响的场景，常用于聚类分析和 PCA（主成分分析）等模型。
最大值归一化：适用于数据值围绕中心对称分布，且希望将数据映射到 [-1, 1] 区间的情况，常用于 SVM 等机器学习算法。
小数定标归一化：适合数据的取值范围较大，且位数变化相对固定的场景。
向量归一化：适用于向量数据，如文本分类、图像处理等领域，特别是当要消除向量大小的影响时。

查看全文

http://www.kler.cn/news/360370.html

重庆大学软件工程考研，难度如何？

Linux -- 进程间通信、初识匿名管道

Java项目-基于springcloud框架的分布式架构网上商城系统项目实战(附源码+文档)

OceanBase 的写盘与传统数据库有什么不同？

一个检测work是否被包含在训练数据集中的工具

Spring-aop介绍

Adobe Acrobat DC 打印PDF文件，没有打印出注释的解决方法

【Linux】文件IO深度解析：文件描述符与重定向的奥秘

LeetCode 1456.定长子串中元音的最大数目

ESP32移植Openharmony外设篇（1）MQ-2烟雾传感器

独著的出版流程是怎样的？

rabbitMQ消息重复问题怎么解决的？

API 接口封装技术详解

【JVM】—深入理解ZGC回收器—关键技术详解

M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

Scala内部类和Java内部类的不同

TCP/IP 寻址

力扣面试150 完全二叉树的节点个数树的高度

Python酷库之旅-第三方库Pandas(148)

基于vue框架的的地铁站智慧管理系统的设计n09jb（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。