机器学习 笔记
特征值提取
字典
from sklearn.extaction import DictVectorizer
m=DictVectorizer(sparse=False)#sparse是否转换成三元组形式
data=[], #传入字典数据
data1=model.fit_transform(data) #使用API
英文特征值提取
from sklearn.feature_extraction.text import CountVectorizer
data=[]
transfer=CountVectorizer(stop_words=])#创建词频提取对象
x=transfer.fit_transform(data)# 提取词频
中文特征值提取
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import jieba # 导入jieba用于断词中文字符串
import pandas as pd
def text_cut(text):
return "-".join(jieba.cut(text)) # 函数断词
data=[]
data1=(text_cut(i) for i in data) # 推导式
transfer=TfidfVectorizer(stop_words=[])
re=transfer.fit_transform(data1)
data2=pd.DataFrame(data=re.toarray(),columns=transfer.get_feature_names_out())
无量纲化-预处理
归一化
这里的 Xmin 和 Xmax 分别是每种特征中的最小值和最大值,而 ��是当前特征值,Xscaled 是归一化后的特征值。