当前位置: 首页 > article >正文

决策树(二)属性选择度量之基尼系数详细讲解

在上篇文章中,已经介绍了属性选择度量的信息增益,接下来本篇文章将介绍最后一个常用属性选择度量:基尼系数(Gini)。

熵的计算涉及对数运算比较耗时,基尼系数在简化计算的同时还保留了熵的优点。基尼系数代表了模型的不纯度,基尼系数越小,纯度越高,选择该特征进行劈划也越好。这和信息增益(比)正好相反。

假设,用X表示随机变量,随机变量的取值为x1, x2 ,x3… 在n分类问题中便有n个取值,基尼系数的计算公式如下:

图片

其中pi为类别i出现的频率,即类别为i的样本占总样本个数的比率,Σ为求和符号,即对所有的pi^2进行求和。

当引入某个用于分类的变量A,假设属性A有m个不同的值,则变量A划分后的基尼系数的计算公式为:

图片

gini(Xi)为按属性A分划后的各子集的基尼系数,|X|为总样本个数,| Xi|为划分后的各类的样本量。

☀公式很复杂,这是什么意思呢?接下来,咱们把看起来高级的问题“低级化”,解释一下gini(X)这个公式。

(1)基尼系数的目的是衡量不平等程度。当我们求pi^2并求和时,这个操作实际上是在给占比大的部分赋予更大的权重。

例如:在两个人分东西的例子中,A 占 90%,B 占 10%。当我们计算

图片

时,占比大的 A(0.9)的平方 0.81 远大于占比小的 B(0.1)的平方 0.01。gini(x)=1-0.82=0.18

这种权重分配方式使得基尼系数在衡量不平等时,更侧重于占比大的部分对整体不平等的贡献。在一个社会或群体的资源分配中,占比大的部分的集中程度对整体的不平等感知有更大的影响。


http://www.kler.cn/a/468327.html

相关文章:

  • 01、Redis初认识
  • 66.基于SpringBoot + Vue实现的前后端分离-律师事务所案件管理系统(项目 + 论文)
  • 【three.js】场景搭建
  • clickhouse query_log 常用查询语句
  • html中下拉选框的基本实现方式及JavaScript动态修改选项内容情况总结
  • reactor中的并发
  • lec7-路由与路由器
  • 《ROS2 机器人开发 从入门道实践》 鱼香ROS2——第5章内容
  • 弹性云服务器ECS“规格”
  • Vue3中使用 Vue Flow 流程图方法
  • [2个简单方法]如何将iPhone中的联系人保存到iCloud?
  • 联邦学习的 AI 大模型微调中,加性、选择性、重参数化和混合微调
  • Android设备使用AOA协议进行主机与配件模式通信
  • 深入理解连接池:从数据库到HTTP的优化之道
  • maven之插件调试
  • C++ 设计模式:迭代器模式(Iterator Pattern)
  • TCP Analysis Flags 之 TCP Retransmission
  • 动态规划六——两个数组的dp问题
  • 设计模式之桥接设计模式
  • H3C MPLS跨域optionC
  • Tableau数据可视化与仪表盘搭建-数据连接
  • 命令模式——C++实现
  • ASP.NET Core 下载文件
  • 【全栈】SprintBoot+vue3迷你商城(1)
  • http源码分析
  • Visual Studio 2022+Qt6.5.3安装教程+环境配置+创建Qt项目+乱码插件+运行很完美(16岁孩子也能看懂)