当前位置: 首页 > article >正文

sklearn实现数据标准化(Standardization)和归一化(Normalization)

标准化(Standardization)

sklearn的标准化过程,即包括Z-Score标准化,也包括0-1标准化,并且即可以通过实用函数来进行标准化处理,同时也可以利用评估器来执行标准化过程。接下来我们分不同功能以的不同实现形式来进行讨论:

Z-Score标准化的评估器实现方法

#首先是评估器导入
from sklearn.preprocessing import StandardScaler

#评估器的实例化
scaler = StandardScaler()

#然后导入数据,进行训练,此处也是使用fit函数进行训练:
X = np.arange(15).reshape(5, 3)
scaler.fit(X)

# 查看训练数据各列的标准差
scaler.scale_
# 查看训练数据各列的均值
scaler.mean_
# 查看训练数据各列的方差
scaler.var_
# 总共有效的训练数据条数
scaler.n_samples_seen_

# 利用均值和方差对训练集进行标准化处理
scaler.transform(X)

0-1标准化的评估器实现方法

from sklearn.preprocessing import MinMaxScaler

#然后导入数据,进行训练
X = np.arange(15).reshape(5, 3)
scaler = MinMaxScaler()
scaler.fit_transform(X)

归一化Normalization

和标准化不同,sklearn中的归一化特指将单个样本(一行数据)放缩为单位范数(1范数或者2范数为单位范数)的过程,归一化也有函数实现和评估器实现两种方法。
  此前我们曾解释到关于范数的基本概念,假设向量 x = [ x 1 , x 2 , . . . , x n ] T x = [x_1, x_2, ..., x_n]^T x=[x1,x2,...,xn]T,则向量x的1-范数的基本计算公式为:
∣ ∣ x ∣ ∣ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ ||x||_1 = |x_1|+|x_2|+...+|x_n| ∣∣x1=x1+x2+...+xn
即各分量的绝对值之和。而向量x的2-范数计算公式为:
∣ ∣ x ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + . . . + ∣ x n ∣ 2 ) ||x||_2=\sqrt{(|x_1|^2+|x_2|^2+...+|x_n|^2)} ∣∣x2=(x12+x22+...+xn2)
我们可以调用评估器来实现上述过程

from sklearn.preprocessing import Normalizer

#导入数据,进行训练
X = np.arange(15).reshape(5, 3)

# L2 (默认)
normlize = Normalizer()
normlize.fit_transform(X)

# L1 
normlize = Normalizer(norm='l1')
normlize.fit_transform(X)

http://www.kler.cn/a/228680.html

相关文章:

  • LeetCode hot 力扣热题100 排序链表
  • 力扣动态规划-5【算法学习day.99】
  • 通信协议—WebSocket
  • Go-知识 版本演进
  • InVideo AI技术浅析(五):生成对抗网络
  • Java基础——概念和常识(语言特点、JVM、JDK、JRE、AOT/JIT等介绍)
  • 通过大疆PSDK,将第三方摄像头的视频流推到M300遥控器显示
  • Android 应用添加系统签名权限的几种方式实现介绍
  • 算法每日一题: 使用循环数组所有元素相等的最少秒数 | 哈希
  • 按时间维度统计次数案例
  • Unity 开发注意事项
  • arping交叉编译
  • 【C++】类和对象(2)
  • DL/T1578-2021电力线路多旋翼无人机巡检系
  • [Python] 什么是逻辑回归模型?使用scikit-learn中的LogisticRegression来解决乳腺癌数据集上的二分类问题
  • 典型数据结构的模板实现
  • Python调用pyspark报错整理
  • Class 类
  • SpringBoot实战项目第一天
  • 为什么选择AGPL3.0开源协议
  • ROS从入门到精通4-1:Docker安装与常用命令总结
  • Windows自动化实现:系统通知和任务栏图标自定义
  • jmeter-04创建请求
  • 类银河恶魔城学习记录1-5 CollisionCheck源代码 P32
  • 2024 高级前端面试题之 性能优化模块 「精选篇」
  • 华为机考入门python3--(8)牛客8-合并表记录