当前位置: 首页 > article >正文

【Python】数据可视化之核密度

KDEPlot(Kernel Density Estimate Plot,核密度估计图)是seaborn库中一个用于数据可视化的函数,它基于核密度估计(KDE)这一非参数统计方法来估计数据的概率密度函数。KDEPlot能够直观地展示数据的分布特征,对于单变量和双变量数据均适用。

 

目录

基本思想

主要参数

沿轴绘制

平滑调整

多类绘制 

堆叠分布

二元分布


基本思想

核密度估计(Kernel Density Estimation, KDE)是一种用于估计随机变量概率密度函数的非参数方法。在统计学和概率论中,当我们不知道数据背后的确切分布形式时,核密度估计提供了一种灵活的方式来估计数据的分布形态。这种方法特别适用于小样本数据和复杂分布的情况。

核密度估计的基本思想是将每一个数据点看作是一个小型的、平滑的“核”函数(通常是正态分布、均匀分布或其他形式的对称、平滑函数)的中心,然后计算这些核函数在整个数据空间上的叠加结果。这个叠加的结果就是整个数据集的密度估计。

主要参数

  • data:要绘制的数据集,可以是一维数组(单变量)或二维数组/DataFrame(双变量)。
  • shade:是否在核密度曲线下绘制阴影,默认为True。阴影可以帮助更直观地展示数据的分布范围。
  • color:曲线的颜色,默认为绿色('g')。
  • hue :语义映射以确定绘图元素颜色的语义变量。
  • linewidth:曲线的宽度,默认为1。
  • bw(bandwidth):核密度估计的带宽,控制曲线的平滑程度。默认为'scott',即使用Scott的规则自动计算带宽。
  • bw_adjust : 平滑程度缩放的因子。增加将使曲线更平滑。
  • gridsize:用于计算核密度的网格大小,默认为100。增加此值可以提高图形的分辨率,但也会增加计算时间。
  • cumulative:是否绘制累积密度函数(CDF),默认为False。如果设置为True,则绘制的是数据的累积分布函数而非概率密度函数。
  • vertical:在单变量输入时有效,用于控制是否颠倒x-y轴位置,默认为False。
  • kernel:核密度估计的方法,默认为'gau'(高斯核)。特别地,在二维变量的情况下仅支持高斯核方法。
  • cmap:在绘制二维KDE图时使用的颜色映射(colormap),用于控制核密度区域的递进色彩方案。

沿轴绘制

沿x轴绘制单变量分布

tips = sns.load_dataset("tips")
sns.kdeplot(data=tips, x="total_bill", shade=True, color="g")

沿y轴绘制单变量分布

sns.kdeplot(data=tips, y="total_bill", shade=True, color="g")

平滑调整

使用更少的平滑

sns.kdeplot(data=tips, x="total_bill", bw_adjust=.1, shade=True, color="b")

使用更多的平滑(不绕过极端值)

ax= sns.kdeplot(data=tips, x="total_bill", bw_adjust=5, cut=0, shade=True, color="b")

 

 

多类绘制 

绘制多类或多列数据 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True)

使用不同的调色 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True, palette="crest")

 

堆叠分布

堆叠条件分布multiple="stack"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack", palette="PRGn")

 

按照填充堆叠multiple="fill"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="fill",palette="PRGn")

 

二元分布

绘制x,y的二元分布图

sns.kdeplot(data=geyser, x="waiting", y="duration")

使用 hue 语义映射以显示条件分布

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind")

填空含语义映射的条件分布曲线 

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind", shade=True, shade_lowest=False, cmap="crest")

 


http://www.kler.cn/news/290744.html

相关文章:

  • 监控MySQL数据恢复策略性能:深入指南
  • 【专题】2024年中国游戏出海洞察报告合集PDF分享(附原数据表)
  • ubuntu20.04(wsl2)测试 arcface 人脸识别(计算特征向量)
  • chapter01 Java语言概述 知识点Note
  • hadoop强制退出安全模式命令
  • 深入解析Spring Boot中的`@Transactional`注解
  • 学习之SQL语句DQL(数据库操作语言)之多表查询(内外连接,自连接,子查询)
  • web渗透:SSRF漏洞
  • Xinstall引领免邀请码下载新潮流,便捷又安全
  • 性能测试⼯具-——JMeter
  • 基于Java+SpringBoot+Vue+MySQL的地方美食分享网站
  • RDD、DataFrame、DataSet(Spark)
  • 深度学习(七)-计算机视觉基础
  • 0、Typescript学习
  • 【重学 MySQL】七、MySQL的登录
  • HTTPS理论(SSL/TLS)
  • 全面指南:在MySQL中实现数据备份的策略规划
  • NLP从零开始------17.文本中阶处理之序列到序列模型(2)
  • Draw.io for Mac/Win:免费且强大的流程图绘制工具
  • 数据库和MySQL
  • 网络协议--HTTP 和 HTTPS 的区别
  • 设计模式 —— 单例模式
  • 惠中科技PV-Wiper全自动光伏组件清洁系统:智能清洁赋能光伏产业
  • 日系编曲:日系钢琴写作思路 双手思维 双手编写思路 双手合并 琶音 刮奏 颤音 震音
  • 点云帧间位姿矩阵的预测和误差计算
  • [Meachines] [Medium] Bitlab 标签自动填充登录+GitLab+Docker横向+Postgresql+逆向工程
  • Spring AOP(下)原理
  • JMeter 接口自动化测试:以搜索功能为例的实现思路详解
  • vue + Lodop 制作可视化设计页面 实现打印设计功能(三)
  • 服务器文件权限限制写入