当前位置: 首页 > article >正文

机器学习 笔记

特征值提取

字典

from  sklearn.extaction  import DictVectorizer

m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式

data=[],  #传入字典数据

data1=model.fit_transform(data)  #使用API

英文特征值提取

from sklearn.feature_extraction.text import CountVectorizer

data=[]

transfer=CountVectorizer(stop_words=])#创建词频提取对象

x=transfer.fit_transform(data)# 提取词频

中文特征值提取

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

import jieba  # 导入jieba用于断词中文字符串

import pandas as pd

def text_cut(text):

 return "-".join(jieba.cut(text)) # 函数断词

data=[]

data1=(text_cut(i) for i in data) # 推导式

transfer=TfidfVectorizer(stop_words=[])

re=transfer.fit_transform(data1)

data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())

无量纲化-预处理

归一化

这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。

标准化


http://www.kler.cn/a/392461.html

相关文章:

  • Unity 2D实战小游戏开发跳跳鸟 - 计分逻辑开发
  • Vue.js 异步、延迟组件加载
  • 鸿蒙HarmonyOS Next 视频边播放边缓存- OhosVideoCache
  • 数据结构之栈和队列(超详解)
  • 年化18%-39.3%的策略集 | backtrader通过xtquant连接qmt实战
  • Windows程序设计10:文件指针及目录的创建与删除
  • 在 Ubuntu 上安装 `.deb` 软件包有几种方法
  • 【数据治理】你知道如何做静态脱敏吗?
  • TTL器件和CMOS器件的逻辑电平
  • 【动态规划】打家劫舍类问题
  • wordpress实用功能A5资源网同款 隐藏下载框 支付框 需要登录才能查看隐藏的内容
  • 系统架构设计师论文:论软件维护方法及其应用
  • git同步fork和原始仓库
  • 【C#设计模式(5)——原型模式(Prototype Pattern)】
  • ubuntu24.04安装matlab失败
  • PDF 转 Word——10个实用优质工具大揭秘!
  • 大数据学习13之Scala基础语法(重点)
  • Redis做分布式锁
  • day12:版本控制器
  • 检测敏感词功能
  • CelebV-Text——从文本生成人脸视频的数据集
  • 2024 年 Postman 进行 Websocket 接口测试的图文教程
  • 激活函数解析:神经网络背后的“驱动力”
  • 练习LabVIEW第四十三题
  • 从0开始深度学习(26)——汇聚层/池化层
  • A. Turtle and Good Strings