当前位置: 首页 > article >正文

2024-11-12 学习人工智能的Day25 scikit-learn库初见

简简单单的数据集

from sklearn.datasets import load_iris/fectch

简单的引用世界数据集和玩具数据集方式

#下面是在获取数据集后常用的值

feature
feature_names
DESCR
target
target_names
filename

from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
iris = load_iris()
feature= iris.data
target =iris.target
target.shape = (len(target),1)
data = np.hstack([feature,target])
cols = iris.feature_names
cols.append('target')
res = pd.DataFrame(data=data,columns=cols)
res

这里是的数据划分的工具

from sklearn.model_selection import train_test_split(*array ,**option)

train_test_split(data= , test_size=/train_size= , random_state=)

在使用中的案例

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,train_size=0.8,random_state=666)
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

下面是特征工程里可能会用到的API等等

from sklearn.feature_extraction import DictVectorizer

CountVectorizer 这个才有stop_words可以设置,直接使用fit_transform的话返回的依旧是稀疏矩阵,主打的就是一个英文文本
的特征提取,所以我们换了一个工具去实现中文的
它的引用方法用到了feature_extraction中的text部分

DictVectorizer 创建工具,创建时设置/ 记错了,此方法没有stop_words,最简单的一个,用于字典列表的特征提取

TfidfVectorizer 找出来的可以用于中文文本提取的工具,但是依旧有一个前提
创建空白的运行框使用 ! pip install jieba 安装中文分词器
emmmm,又记错了,其实是count装个jeiba就可以中文识别了hhhhhh
TfidfVector的作用是文本特征字的重要程度提取,主要需要注意的是关于TF(词频)、IDC(逆文档频率)这两个值的计算公式

  • 在这里插入图片描述

在这里插入图片描述

最后值的话是TF-IDF=TF×IDF

MinMaxScaler 归一化

StandardScaler 标准化

VarianceThreshold

fit_transform 到处都在用,看下面的解释,在不通的工具中,它的去fit的值都不一样,然后transform的返回值也有区别

关于 fit 和 transform 在不同工具中的默认行为
fit 和 transform 的具体操作确实会根据工具的设计和应用的不同而有所不同。下面是一些常见的区别:

DictVectorizer:fit 解析字典中的键作为特征名,transform 将字典转换为向量。
StandardScaler:fit 计算每个特征的均值和标准差,transform 利用这些均值和标准差对数据进行标准化。
MinMaxScaler:fit 计算每个特征的最小值和最大值,transform 利用这些值将特征归一化到指定范围(例如 0 到 1)。
PCA(主成分分析):fit 计算数据的协方差矩阵并提取主成分,transform 将数据投影到这些主成分上。
值,transform 利用这些值将特征归一化到指定范围(例如 0 到 1)。
PCA(主成分分析):fit 计算数据的协方差矩阵并提取主成分,transform 将数据投影到这些主成分上。
这些工具的 fit 操作都是为了获取和保存特定的统计信息或转换参数,而 transform 则是实际应用这些参数的过程。


http://www.kler.cn/a/398174.html

相关文章:

  • Python3.11.9+selenium,选择证书用多线程+键盘enter解决
  • 外网访问 WebDav 服务
  • 基于STM32的智能温室控制系统设计
  • IC 脚本之VIM 记录
  • html + css 自适应首页布局案例
  • FreeSWITCH chat 得到的是 Error! Message Not Sent
  • 让空间计算触手可及,VR手套何以点石成金?
  • AIR 780EP开发流程记录-AT方式
  • Ceph PG(归置组)的状态说明
  • Wordpress常用配置,包括看板娘跨域等
  • 接口文档的定义
  • 基于Spring Boot的电子商务平台架构
  • 《.addClass()》
  • 深度学习中的mAP
  • 三、模板与配置(下)
  • 鸿蒙开发-网络数据访问、应用本地数据保存
  • Unity类银河战士恶魔城学习总结(P129 Craft UI 合成面板UI)
  • dockers+Jenkins+git+自动化框架
  • Java基础——高级技术
  • LeetCode 热题100(八)【二叉树】(3)
  • 深入剖析:Spring MVC与Struts的较量
  • 探秘 Nacos 服务注册与发现:微服务领域的创新驱动
  • golang使用etcd版本问题
  • 告别系统限制,一键关闭Windows Defender
  • 计算机视觉 1-8章 (硕士)
  • Electron 沙盒模式与预加载脚本:保障桌面应用安全的关键机制