当前位置：首页 > article >正文

什么是信息增益比

article 2025/3/6 2:19:06

信息增益比（Information Gain Ratio） 是对 信息增益（Information Gain, IG） 的改进，它考虑了特征的不同取值数量对信息增益的影响，避免了信息增益偏向于取值较多特征的倾向。信息增益比常用于构建决策树，特别是在C4.5决策树算法中。

背景

信息增益（IG） 在选择特征时，通常会选择信息增益最大的特征进行划分。然而，信息增益会偏向那些取值较多的特征。例如，如果一个特征有非常多的不同值（如唯一标识符），该特征可能在划分时导致信息增益非常大，但并不代表该特征实际上对分类有较大的贡献。

为了解决这个问题，引入了信息增益比（Gain Ratio）。信息增益比在信息增益的基础上考虑了特征取值的数量，并对取值较多的特征进行惩罚。

信息增益比的定义

信息增益比的计算公式为：
$\text{Gain Ratio}(D, X) = \frac{IG(D, X)}{IV(X)}$

其中：

$I G (D, X)$ 是特征 $X$ 的信息增益，它衡量特征 $X$ 对数据集 $D$ 中不确定性减少的程度。
$I V (X)$ 是特征 $X$ 的固有值（Intrinsic Value），用于衡量特征 $X$ 的取值分布，它表示特征 $X$ 将数据划分成不同子集的“离散性”或“多样性”。

固有值（Intrinsic Value, IV）的定义

固有值 $I V (X)$ 的公式为：
$\sum_{i=1}^n \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$

其中：

$D_i$ 是特征 $X$ 的第 $i$ 个取值对应的数据子集。
$D_i|$ 是子集 $D_i$ 的样本数量， $∣ D ∣$ 是原始数据集的总样本数量。
$n$ 是特征 $X$ 的取值数量。

固有值的作用是衡量特征的取值数量和分布。如果特征 $X$ 的取值非常多且每个取值对应的数据量很少，固有值会很大，这会降低信息增益比的值。

计算信息增益比的步骤

计算信息增益 $I G (D, X)$ ：
- 首先，计算特征 $X$ 的信息增益，表示特征 $X$ 对数据集 $D$ 的不确定性减少的程度。
计算特征的固有值 $I V (X)$ ：
- 接着，计算特征的固有值 $I V (X)$ ，表示特征 $X$ 的取值分布的离散性。
计算信息增益比 $\text{Gain Ratio}(D, X)$ ：
- 最后，计算信息增益比，将信息增益 $I G (D, X)$ 除以固有值 $I V (X)$ 。如果固有值 $I V (X)$ 非常大，信息增益比会较小，防止算法偏向那些取值较多的特征。

信息增益比的作用

信息增益比通过除以特征的固有值来减少信息增益对取值多样性的偏好，从而对那些取值非常多但没有实际分类能力的特征进行惩罚。
在决策树构建过程中，选择信息增益比最大的特征进行划分。这种方法可以有效避免信息增益在面对高取值数特征时的偏向。

举例说明

假设我们有一个二元分类问题，并且特征 $X_1$ 和 $X_2$ 可分别取两种和十种不同的值。我们计算了特征 $X_1$ 和 $X_2$ 的信息增益，假设：

特征 $X_1$ 的信息增益 $IG(D, X_1) = 0.5$
特征 $X_2$ 的信息增益 $IG(D, X_2) = 0.7$

根据信息增益的结果，特征 $X_2$ 似乎是一个更好的选择。但是，特征 $X_2$ 有更多的取值，因此它可能由于取值的数量而获得了较高的信息增益。因此，我们引入固有值进行调整。

假设我们计算了固有值：

特征 $X_1$ 的固有值 $IV(X_1) = 0.9$
特征 $X_2$ 的固有值 $IV(X_2) = 2.0$

我们可以计算信息增益比：

特征 $X_1$ 的信息增益比 $\text{Gain Ratio}(D, X_1) = \frac{0.5}{0.9} \approx 0.56$
特征 $X_2$ 的信息增益比 $\text{Gain Ratio}(D, X_2) = \frac{0.7}{2.0} = 0.35$

虽然特征 $X_2$ 的信息增益较高，但由于其固有值较大，信息增益比却较低。因此，特征 $X_1$ 的信息增益比更高，意味着特征 $X_1$ 更适合作为划分的依据。

总结

信息增益比通过对信息增益进行归一化来减少对取值较多特征的偏好，它有效避免了信息增益倾向于选择取值较多特征的问题。
固有值用于衡量特征的离散性，特征取值越多，固有值越大，导致信息增益比越小。
C4.5 决策树算法使用信息增益比来选择分裂特征，以更合理地划分数据，避免取值多的特征占据优势。

信息增益比能够让决策树构建过程更加合理，防止仅因特征取值多样性导致选择错误的划分特征。

http://www.kler.cn/a/328423.html

相关文章：

MFC工控项目实例之十九手动测试界面输出信号切换

Python办公自动化之Excel

[C++] 小游戏征伐 SLG DNF 0.0.1 版本 zty出品

ARM base instruction -- ic

滚雪球学MySQL[2.3讲]：MySQL数据过滤与排序详解：WHERE条件、ORDER BY排序与LIMIT分页查询

物联网智能项目研究

如何创建AWS云账号

思维+贪心，CF 1210B - Marcin and Training Camp

SD-WebUI forge支持flux模型。算力互联forge镜像使用教程

【鸿蒙学习】深入了解UIAbility组件

Java在用增强for循环遍历集合时删除元素，抛出java.util.ConcurrentModificationException异常

【Verilog学习日常】—牛客网刷题—Verilog企业真题—VL69

决策树中联合概率分布公式解释说明

如何判断电器外壳是否带电

十四、磁盘的管理

SpringBoot之Profile的两种使用方式

二叉搜索树详解

基于ARX结构的流密码算法Salsa20

mybatis-puls快速入门

Nginx的核心架构和设计原理