当前位置: 首页 > article >正文

python之sklearn--鸢尾花数据集之数据降维(PCA主成分分析)

python之sklearn–鸢尾花数据集之数据降维(PCA主成分分析)

sklearn库:Scikit - learn(sklearn)是一个用于机器学习的开源 Python 库。它建立在 NumPy、SciPy 和 matplotlib 等其他科学计算库之上,为机器学习的常见任务提供了简单高效的工具,包括分类、回归、聚类、降维、模型选择和预处理等多种算法。

下载sklearn库:pip install scikit-learn


分模块解析


1.导入需要的模块

from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA  #PCA:主成分分析

2.加载数据

iris = datasets.load_iris()  #加载鸢尾花数据集
x = iris.data[:,:2]   #仅考察前两个特征,即鸢尾花花萼的长宽
y = iris.target

3.计算用于绘制二维散点图时,x轴(花萼长度)和y轴(花萼宽度)的坐标范围

通过减去和加上0.5来适当扩展范围,使可视化效果更好。

x_min,x_max = x[:,0].min() - .5,x[:,0].max() + .5
y_min,y_max = x[:,1].min() - .5,x[:,1].max() + .5

4.绘制二维散点图

plt.figure(1,figsize=(6,4))  #创建编号为 1,大小为 (6, 4) 的图形
plt.clf()   #清除当前图形窗口中的内容
plt.scatter(x[:,0],x[:,1],c=y,cmap=plt.cm.Set1,edgecolors='k')   

scatter 函数用于绘制散点图,直观地展示数据点在二维空间中的分布情况通过。
X_reduced[:,0] 表示取这个数据集中每一行的第 1 列数据,作为散点图中每个点的 x 坐标;
X_reduced[:,1] 取每一行的第 2 列数据,作为 y 坐标;
c=y根据样本的类别标签来给点赋予不同的颜色(颜色映射使用plt.cm.Set1)。
cmap=plt.cm.Set1 是 matplotlib 中预定义的一种颜色映射,它能够提供一组离散的、区分度较高的颜色,适合用于区分不同类别等情况。
edgecolors=‘k’ : edgecolor 参数用于指定散点的边缘颜色,'k’表示黑色的—>‘black’

绘制二维图

plt.xlabel('Sepal length')  #x轴标签名称
plt.ylabel('Sepal wigth')   #y轴标签名称
plt.xlim(x_min,x_max)   #设置x坐标范围
plt.ylim(y_min,y_max)   #设置y坐标范围
plt.xticks(())  #去掉x坐标轴上的刻度标记
plt.yticks(())  #去掉y坐标轴上的刻度标记
  1. 进行主成分分析并绘制 3D 散点图
fig = plt.figure(2,figsize=(6,4))   
#创建编号为 2,大小为 (6, 4) 的图形
plt.clf()
#用于清除当前图形(Figure)对象中的所有内容
# ax = fig.add_subplot(1,1,1,projection = '3d') #这句代码也是可以做3D图形的
ax = Axes3D(fig,elev=-150,azim=110)

该图形窗口中创建一个 3D 坐标轴对象,并且通过elev(仰角)和azim(方位角)参数设置了视角,方便观察 3D 散点图的效果。

X_reduced = PCA(n_components=3).fit_transform(iris.data)

使用PCA类对鸢尾花数据集的所有特征(这里没有像前面二维可视化那样只取部分特征)进行主成分分析。 将数据降到 3维空间(通过n_components=3指定),得到降维后的数据集X_reduced。

ax.scatter(X_reduced[:,0],X_reduced[:,1],X_reduced[:,2],c=y,cmap=plt.cm.Set1,edgecolor='k',s=40)    #s是散点的大小
ax.set_title('First three PCA directions')  #设置标题
ax.set_xlabel('1st eigenvector')  #设置x标签--第一特征向量
ax.xaxis.set_ticklabels([])    #去掉x刻度显示
ax.set_ylabel('2nd eigenvector')  #设置y标签--第二特征向量
ax.yaxis.set_ticklabels([])    #去掉y刻度显示
ax.set_zlabel('3rd eigenvector')  #设置z标签--第三特征向量
ax.zaxis.set_ticklabels([])    #去掉z刻度显示
plt.show()   显示图片

完整代码

from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA 

iris = datasets.load_iris() 
x = iris.data[:,:2]   
y = iris.target

x_min,x_max = x[:,0].min() - .5,x[:,0].max() + .5
y_min,y_max = x[:,1].min() - .5,x[:,1].max() + .5

plt.figure(1,figsize=(6.4))
plt.clf()   
plt.scatter(x[:,0],x[:,1],c=y,cmap=plt.cm.Set1,edgecolors='k')   

plt.xlabel('Sepal length')
plt.ylabel('Sepal wigth')
plt.xlim(x_min,x_max)
plt.ylim(y_min,y_max)
plt.xticks(())  
plt.yticks(())

fig = plt.figure(2,figsize=(6,4))
plt.clf()

#ax = fig.add_subplot(1,1,1,projection = '3d')
ax = Axes3D(fig,elev=-150,azim=110)
plt.cla()

X_reduced = PCA(n_components=3).fit_transform(iris.data)

ax.scatter(X_reduced[:,0],X_reduced[:,1],X_reduced[:,2],c=y,cmap=plt.cm.Set1,edgecolor='k',s=40)
ax.set_title('First three PCA directions')
ax.set_xlabel('1st eigenvector')
ax.xaxis.set_ticklabels([])   
ax.set_ylabel('2nd eigenvector')
ax.yaxis.set_ticklabels([])
ax.set_zlabel('3rd eigenvector')
ax.zaxis.set_ticklabels([])
plt.show()

运行结果图
1.鸢尾花–iris二维散点图
在这里插入图片描述
1.鸢尾花–iris三维散点图

在这里插入图片描述


http://www.kler.cn/a/402535.html

相关文章:

  • 递推进阶与入门递归
  • mysql数据库双机互为主从设置与数据库断电无法启动处理
  • SAP开发语言ABAP常见面试问题及答案
  • leetcode 面试150之 156.LUR 缓存
  • ssm实战项目──哈米音乐(二)
  • 【大数据学习 | Spark-Core】Spark提交及运行流程
  • 鸿蒙module开发实践
  • 豆瓣书摘 | 爬虫 | Python
  • 性能稳定的云计算监控工具大全
  • 硬件工程师零基础入门:一.电子设计安全要点与欧姆定律
  • 蓝桥杯2024年11月20日个人赛报名页下方例题解答
  • YOLOv8-ultralytics-8.2.103部分代码阅读笔记-conv.py
  • 重构代码之引入外部方法
  • 【c++篇】:深入c++的set和map容器--掌握提升编程效率的利器
  • 【JavaSE】【网络编程】UDP数据报套接字编程
  • MFC1(note)
  • 高频面试题(含笔试高频算法整理)基本总结回顾21
  • goland单元测试
  • 【虚拟机】VMWare的CentOS虚拟机断电或强制关机出现问题
  • 一次成功尝试:旧电脑通过网线,连接带无线网卡电脑上外网
  • Android和IOS的区别
  • C++——智能指针剖析
  • 专家PID控制
  • 在 for 循环中,JVM可能会将 arr.length 提升到循环外部,仅计算一次。可能会将如何解释 详解
  • AwsCredentialsProvider认证接口
  • Python运算符列表