当前位置: 首页 > article >正文

[Python] scikit-learn中数据集模块介绍和使用案例

sklearn.datasets模块介绍

在scikit-learn中,可以使用sklearn.datasets模块中的函数来构建数据集。这个模块提供了用于加载和生成数据集的函数。

API Reference — scikit-learn 1.4.0 documentation

以下是一些常用的sklearn.datasets模块中的函数

load_iris()

sklearn.datasets.load_iris — scikit-learn 1.4.0 documentation

加载鸢尾花数据集,返回一个Bunch对象,包含特征数据和标签。

from sklearn import datasets

iris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 标签

load_digits()

sklearn.datasets.load_digits — scikit-learn 1.4.0 documentation

加载手写数字数据集,返回一个Bunch对象,包含特征数据和标签。

from sklearn import datasets

digits = datasets.load_digits()
X = digits.data  # 特征数据
y = digits.target  # 标签

make_regression()

sklearn.datasets.make_regression — scikit-learn 1.4.0 documentation

生成一个回归问题的合成数据集,可以指定样本数、特征数、噪声等参数。

from sklearn.datasets import make_regression
X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
X
y

make_classification()

sklearn.datasets.make_classification — scikit-learn 1.4.0 documentation

生成一个分类问题的合成数据集,可以指定样本数、特征数、类别数、噪声等参数。

from sklearn.datasets import make_classification
X, y = make_classification(random_state=42)
print(X.shape)
print(y.shape)
print(list(X[:5]))
print(list(y[:5]))

make_blobs()

sklearn.datasets.make_blobs — scikit-learn 1.4.0 documentation

可以用于生成一个多类别的合成数据集。它主要用于聚类算法的演示和测试。

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=10, centers=3, n_features=2,
                  random_state=0)
print(X.shape)
y
X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,
                  random_state=0)
print(X.shape)
y

小结

这些函数都会返回一个包含特征数据和标签的Bunch对象,你可以通过访问Bunch对象的属性来获取特征数据和标签。

另外,sklearn.datasets模块还提供了其他一些函数,可以加载和生成其他类型的数据集,例如回归数据集、聚类数据集等。


http://www.kler.cn/a/226953.html

相关文章:

  • 计算机服务器中了DevicData勒索病毒如何解密,DevicData勒索病毒解密流程
  • Atlassian Intelligence功能简介,AI驱动生成、概括、优化内容,助力工作效率加倍
  • Open3D 深度图像转点云
  • Ps:旋转视图工具
  • 《计算机网络简易速速上手小册》第10章:未来网络技术趋势(2024 最新版)
  • 06:原生云K8S解密|K8S集群安装部署|K8S网络插件
  • 【NodeJS】fs 模块 (2)
  • 探索前端开发框架:React、Angular 和 Vue 的对决(二)
  • 非精线搜索步长规则Armijo规则Goldstein规则Wolfe规则
  • XUbuntu22.04之两款实用画笔工具(二百一十)
  • 32GPIO输入LED闪烁蜂鸣器
  • Kotlin 协程:深入理解 ‘lifecycleScope‘
  • Guava cache中 LoadingCache和Cache的区别
  • 图论练习2
  • 【Python基础】数字基础
  • unittest、nosetest、pytest
  • MySql主从同步,同步SQL_ERROR 1032解决办法
  • Leetcode—2881. 创建新列【简单】
  • signalR+websocket:实现消息实时通讯——技能提升
  • leetcode-1686石子游戏