当前位置: 首页 > article >正文

ML 系列:第 35 节 - 机器学习中的数据可视化

ML 系列:第 35 天 - 机器学习中的数据可视化

文章目录

  • 一、说明
  • 二、数据可视化
    • 2.1 直方图
    • 2.2 箱线图
    • 2.3 散点图
    • 2.4 条形图
    • 2.5 线图
    • 2.6 热图
  • 三、结尾

一、说明

描述性统计和数据可视化是理解和解释机器学习数据的基础。它们有助于总结和直观地呈现数据,揭示潜在的模式和见解。这篇博文介绍了数据可视化工具,包括直方图、箱线图、散点图和其他重要图表。

二、数据可视化

数据可视化涉及创建数据的图形表示以识别趋势、模式和异常值。有效的可视化可以使复杂的数据更易于访问和理解。以下是数据可视化中使用的一些基本图表:

2.1 直方图

直方图通过将数据分成多个区间并绘制每个区间内数据点的频率来显示连续变量的分布。它们有助于了解数据的形状、集中趋势和分布。

示例:可视化人口的年龄分布。
将matplotlib.pyplot导入为plt

import matplotlib.pyplot as plt

data = [23, 45, 56, 78, 22, 34, 42, 44, 48, 50, 53, 21, 33]
plt.hist(data, bins=5, edgecolor='black')
plt.title('Histogram of Ages')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

输出:

在这里插入图片描述

2.2 箱线图

箱线图(或箱须图)基于五个数字摘要显示数据集的分布:最小值、第一四分位数 (Q1)、中位数、第三四分位数 (Q3) 和最大值。它们可用于识别异常值并比较不同组之间的分布。

例如:比较不同班级的考试成绩。

import seaborn as sns

data = {'Class A': [78, 85, 90, 93, 95, 88, 84],
        'Class B': [65, 70, 72, 74, 76, 68, 71]}
sns.boxplot(data=data)
plt.title('Box Plot of Test Scores by Class')
plt.ylabel('Test Scores')
plt.show()

输出:
在这里插入图片描述

2.3 散点图

散点图显示两个连续变量之间的关系。每个点代表一个观察值,x 和 y 坐标对应于两个变量的值。散点图可用于识别相关性和模式。

例如:考察学习时间和考试成绩之间的关系。

import numpy as np

study_hours = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
test_scores = [50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
plt.scatter(study_hours, test_scores)
plt.title('Scatter Plot of Study Hours vs. Test Scores')
plt.xlabel('Study Hours')
plt.ylabel('Test Scores')
plt.show()

输出:
在这里插入图片描述

2.4 条形图

条形图用矩形条表示分类数据。每个条形的高度对应于类别的频率或值。

示例:可视化不同产品类别的销售情况。

categories = ['A', 'B', 'C', 'D']
sales = [150, 200, 100, 250]
plt.bar(categories, sales, color='blue')
plt.title('Sales by Category')
plt.xlabel('Category')
plt.ylabel('Sales')
plt.show()

输出:
在这里插入图片描述

2.5 线图

线图显示由线连接的数据点,显示随时间或连续数据的趋势。

示例:绘制某公司的月销售额图表。

months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']
sales = [1000, 1200, 1500, 1700, 1600, 1800]
plt.plot(months, sales, marker='o')
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.show()

输出:
在这里插入图片描述

2.6 热图

热图使用颜色以矩阵格式表示数据值,非常适合显示大型数据集中的相关性和模式。

示例:可视化数据集的相关矩阵。

import seaborn as sns
import numpy as np

data = np.random.rand(10, 12)
sns.heatmap(data, annot=True, cmap='coolwarm')
plt.title('Heatmap of Random Data')
plt.show()

输出:
在这里插入图片描述

三、结尾

在我们的机器学习之旅中,我们探索了数据可视化工具,包括直方图、箱线图、散点图和其他重要图表。展望第 36 节(统计学中的抽样类型),我们将介绍不同类型的抽样,例如简单随机抽样、分层抽样、集群抽样、系统抽样和便利抽样。


http://www.kler.cn/a/415565.html

相关文章:

  • JAVA项目-------医院挂号系统
  • 深度学习3:数据预处理使用Pandas与PyTorch的实践
  • 初窥 HTTP 缓存
  • 面试小札:JVM虚拟机
  • 如何让控件始终处于父容器的居中位置(父容器可任意改变大小)
  • AWS EC2设置用户名密码登录
  • 基于单片机的智能药箱设计
  • ESP32开发板在micropython里直接用requests向web服务器发送请求
  • Hive | Hive 表如何查看所有分区
  • Linux环境变量与本地变量
  • 随笔20241126 Kafka 消费者的自动提交与手动提交偏移量详解
  • 【金猿案例展】无锡征信——百望云绿色金融数据要素+数据资产入表服务方案...
  • React进阶面试题目(二)
  • 基于时间维度优化“开源 AI 智能名片 S2B2C 商城小程序”运营策略:提升触达与转化效能
  • 数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现
  • 实例讲解MATLAB绘图坐标轴标签旋转
  • 网络安全运行与维护高级 - 题库汇总百题
  • Linux中创建SFTP用户并设置默认文件权限为775的三种方法
  • 虚拟机ubuntu-20.04.6-live-server搭建OpenStack:Victoria(一:工具、环境准备-controller node)
  • MaskRCNN训练自己的数据集
  • OpenCV 图像轮廓查找与绘制全攻略:从函数使用到实战应用详解
  • 前端开发:构建高质量用户体验的全方位指南(含实际案例与示例)
  • 社群赋能电商:小程序 AI 智能名片与 S2B2C 商城系统的整合与突破
  • 实例分析基于RFCOMM协议大数据传输以及流控
  • 快速排序及其优化【图文详解】
  • falsk-模型基础