当前位置：首页 > article >正文

【机器学习】13. 决策树

article 2024/10/26 1:27:58

决策树的构造

策略：从上往下学习通过recursive divide-and-conquer process（递归分治过程）

首先选择最好的变量作为根节点，给每一个可能的变量值创造分支。
然后将样本放进子集之中，从每个分支的节点拓展一个。
最后：对每个分支进行递归重复，只使用到达该分支的样本
停止递归：如果所有的样本都有着相同的类别，为这个类创建一个叶节点

信息增益（基于熵）

熵衡量的是这个集合相对于类的纯度。

熵越小，数据集的纯度就越大

熵也用于信号压缩，信息论和物理学。

定义

Entropy H(S)
$-\sum_iP_i*log_2P_i$
$P_i$ 代表属于类别i的样本比例

举例

假设现在有 2 个类别， yes 和 no，这个集合中有9个yes，5个no 交叉熵的计算如下
$-\frac{9}{14}log_2\frac{9}{14} - \frac{5}{14}log_2 \frac{5}{14} = 0.94 bits$

熵是用比特来测量的
在计算熵的时候，我们会假设 $log_20 =0$
H(S) 的范围是[0,1]
- 当H(S) = 0 的时候，S的所有元素都属于相同的类，即这个集合是纯净的，拥有最小的Entropy(熵)
- 当H(S) = 1 的时候，有相同数量的yes和no（假设是两类），即最小的纯净度，最大的Entropy.

信息增益

信息增益度量使用属性划分训练示例集所导致的熵减少。
它是两个熵的差：增益= T1-T2
T1为分裂前与父节点相关联的样本集合S的熵
T2是S中剩余的熵，在S被属性分割后
差值越大，信息增益越高
最好的属性是信息增益最高的属性
- 它减少了父节点的熵

案例

选择outlook作为根节点，以此分出3个子集，各自有5，4，5个样本。
$I(\frac{9}{14},\frac{5}{14})$
$\frac{5}{14}H(S_1)+\frac{4}{14}H(S_2)+\frac{5}{14}H(S_3)$

修剪决策树

如果我们生长决策树来完美地分类训练集，树可能会变得过于具体，并过度拟合数据。
过拟合-训练daddata的精度高，但新数据的精度低
树变得太具体了，主要是记忆数据，而不是提取模式
在决策树中什么时候会发生过拟合？
- 训练数据太小->没有足够的代表性示例来构建一个可以在新数据上很好地泛化的模型
- 训练数据中的噪音，例如标签错误的例子
使用树修剪来避免过拟合

两个主要策略

pre-pruning
- 在它达到完美分类训练数据的点之前，尽早停止生长树
post-pruning
- 让树完全生长，让它完美地覆盖训练数据，然后修剪它
在实践中优先考虑后修剪
不同的后剪枝方法：
- 子树替换
- 子树的提升
- 将树转换为规则，然后修剪它们
修剪多少？使用验证集来决定

通过子树替换的修剪思想

自下而上-从树的底部到根部

每个非叶节点都是修剪的候选节点，对于每个节点：
移除根在它上面的子树
用class=majority类的例子替换它候选节点
比较新树和旧树通过计算两者的验证集的精度
如果新树的精度更好或与旧树的精度相同，保持新树（即修剪候选节点）

总结

非常流行的ML技术
自上而下的学习使用递归的分治过程
易于实现
可解释的
制作的树很容易被非专家和客户可视化和理解
可解释性增加了在实践中使用机器学习模型的信任
使用修剪来防止过拟合
选择最佳属性-信息增益、增益比等

http://www.kler.cn/news/365175.html

相关文章：

SAP_SD模块-销售订单创建价格扩大10倍问题分析及后续订单价格批量更新问题处理

【mysql】转义字符反斜杠，正则表达式

vue3 选中对话框时，对话框右侧出一个箭头

python-PyQt项目实战案例：制作一个视频播放器

AI带货主播框架的搭建!

Flutter 状态管理框架Get

现代Web界面交互新利器！来探一探这个魔法组件库——MagicUI

【SPIE出版，EI检索稳定】2024年人机交互与虚拟现实国际会议（HCIVR 2024，11月15-17日）

系统架构设计师教程第18章18.8 安全架构设计案例分析笔记

Android修改第三方应用相机方向

paddleocr使用FastDeploy 部署工具部署 rknn 模型

250MS/s 4通道16bit PCIE采集卡

【YOLOv11改进[损失函数]】使用结合InnerIoU和Focaler的各种损失函数助力YOLOv11更优秀

Xshell远程连接工具详解

什么是标准差？详解

Android Kotlin中协程详解

docker安装postgres扩展age以及使用nodejs连接

TCP单包数据大于1460字节会被拆包的问题

Python项目引入其他项目作为子模块

漏洞技术分析实践_整数溢出

“智能科研写作：结合AI与ChatGPT提升SCI论文和基金申请质量“

微信小程序实现canvas电子签名

开源进销存软件如何助力中小企业数字化转型？

[论文阅读]TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

二分查找_在排序数组中查找元素的第一个和最后一个位置

测试WIFI和以太网的TCP带宽、UDP带宽和丢包率、延时