当前位置：首页 > article >正文

在数据集上通过聚类实现特征降维

article 2025/3/19 1:38:54

分享一个通过聚类算法对数据特征进行聚类从而实现降维的代码

import numpy as np
from sklearn import datasets, cluster
digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))
agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)
FeatureAgglomeration(n_clusters=32)
X_reduced = agglo.transform(X)
X_reduced.shape

以下是代码讲解：

1.导入numpy库和机器学习库的数据集、聚类算法模块

import numpy as np
from sklearn import datasets, cluster

2.加载手写数字数据集

digits = datasets.load_digits()

这行代码从 sklearn.datasets 模块中加载了手写数字数据集，该数据集包含8x8像素的灰度图像和对应的标签（0到9）。

3.获取图像数据

images = digits.images

digits.images 是一个形状为 (1797, 8, 8) 的数组，其中 1797 是样本数量，每个样本是一个 8x8 的灰度图像。

4.将图像数据重塑为二维数组

X = np.reshape(images, (len(images), -1))

这行代码将每个 8x8 的图像展平成一个长度为64的一维向量，因此 X 的形状变为 (1797, 64)。

5.创建并拟合 FeatureAgglomeration 对象

agglo = cluster.FeatureAgglomeration(n_clusters=32)
agglo.fit(X)

这里创建了一个 FeatureAgglomeration 对象，指定要生成的特征数为32。然后使用 fit 方法在数据 X 上训练这个模型。

6.转换数据以减少特征维度

X_reduced = agglo.transform(X)

这行代码使用训练好的 FeatureAgglomeration 模型将原始数据 X 转换为一个具有32个特征的新数据集 X_reduced。

7.查看转换后的数据形状

X_reduced.shape

这行代码输出 X_reduced 的形状。由于我们指定了 n_clusters=32，所以 X_reduced 的形状应该是 (1797, 32)，即有1797个样本，每个样本有32个特征。

由此将手写数字图像数据从64维降到32维，通过特征聚合的方法实现降维。

可以在自己的数据集上试试~！

查看全文

http://www.kler.cn/a/576040.html

python将pdf转换成word

大数据学习（55）-BI工具数据分析的使用

IDEA（十一）调整新版本的工具栏显示Git操作（pull、commit、push、revert等）

SpringMvc的设计模式

矩阵逆逆矩阵

算法随笔_67: 使数组按非递减顺序排列

三维建模与视频融合（3D-Video Integration）技术初探。

是德科技十周年：以创新丈量未来，用科技赋能世界

非常好用的账号密码管理器

maven 多模块笔记

rust编程实战：实现3d粒子渲染wasm

tcc编译器教程3 简单编译gmake源代码

常用无功功率算法的C语言实现（一）

docker1

23种设计模式简介

基于掩码自编码器的可扩展视觉学习者

pytorch3d学习（三）——渲染纹理网格

服务器带宽堵塞会对网站访问产生哪些影响?

C/C++ 实现由用户通过键盘输入自然数并判断其是不是素数（带清空缓冲区等考虑）

解决ubuntu18.04系统更新的问题