当前位置: 首页 > article >正文

机器学习 笔记

特征值提取

字典

from  sklearn.extaction  import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[],  #传入字典数据

data1=model.fit_transform(data)  #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba  # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

 return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化


http://www.kler.cn/a/392461.html

相关文章:

  • 【MySQL】约束
  • 卓胜微嵌入式面试题及参考答案(2万字长文)
  • 【软件工程】一篇入门UML建模图(类图)
  • 「Py」Python基础篇 之 Python都可以做哪些自动化?
  • 猿创征文|Inscode桌面IDE:打造高效开发新体验
  • stringUtils详细解释
  • 在 Ubuntu 上安装 `.deb` 软件包有几种方法
  • 【数据治理】你知道如何做静态脱敏吗?
  • TTL器件和CMOS器件的逻辑电平
  • 【动态规划】打家劫舍类问题
  • wordpress实用功能A5资源网同款 隐藏下载框 支付框 需要登录才能查看隐藏的内容
  • 系统架构设计师论文:论软件维护方法及其应用
  • git同步fork和原始仓库
  • 【C#设计模式(5)——原型模式(Prototype Pattern)】
  • ubuntu24.04安装matlab失败
  • PDF 转 Word——10个实用优质工具大揭秘!
  • 大数据学习13之Scala基础语法(重点)
  • Redis做分布式锁
  • day12:版本控制器
  • 检测敏感词功能
  • CelebV-Text——从文本生成人脸视频的数据集
  • 2024 年 Postman 进行 Websocket 接口测试的图文教程
  • 激活函数解析:神经网络背后的“驱动力”
  • 练习LabVIEW第四十三题
  • 从0开始深度学习(26)——汇聚层/池化层
  • A. Turtle and Good Strings