机器学习—学习过程
给定训练集构建决策树的过程有几个步骤。
给出了一组由十个猫和狗的例子组成的训练集,决策树学习的第一步是我们必须决定在根节点使用什么特性,这是决策树顶部的第一个节点,通过一个算法,假设我们决定选择根节点中的特性,耳朵的形状,这意味着我们将决定看看我们所有的训练例子,这里显示有10个训练例子,并根据耳朵形状特征的值将它们分开,让我们挑出五个尖耳朵的例子,把它们移到左边,剩下五个松软耳朵的例子移到右边,第二步就是看左边,或者有时调用决策树的左分支来决定节点放在哪里,特别是我们想在什么特征上分类,或者我们下一步想使用什么功能,假设决定使用那里的脸型特征,所以现在把左边的五个例子根据他们的脸型值分成两个子集,分别是圆脸和不是圆脸,有四个例子都是圆脸那么把它移到左边,剩下一个移到右边,最后我们看到这四个圆脸的例子都是猫,所以,与其进一步分类,不如创建一个叶节点来进行预测,所以在不是圆脸这里创建一个叶节点,预测不是猫,在决策树左分支的左部分完成此操作后,现在在这个决策树右部分或右分支上重复一个类似的过程,把注意力集中在这五个例子中,里面有一只猫和四只狗,我们必须在这里选择一些特性来进一步分解这五个例子,最后选择胡须作为分类依据,然后根据胡须是否存在来给这五个例子进行分类,只有一个是小猫,这些节点都是纯粹的,意思是要么是猫要么都不是猫,不再有猫和狗的混合,所以可以创建这些叶节点,在左边做一个猫预测,右边是一个不是猫的预测,所以这就是通过这个过程建立决策树的过程,在算法的各个步骤中,我们必须做出几个关键的决定。
第一个关键决定是如何选择在每个节点上使用什么特性进行拆分,所以在根节点以及决策树的左分支和右分支,我们必须决定在分支上是否有几个例子,包括猫和狗的混合体,在耳朵形状特征上分类,或者脸型特征或者胡须特征,决策树会选择在哪个特性上拆分,为了最大限度地提高纯度,需要知道如何划分子集,尽可能接近所有的猫和狗,例如,如果我们有一个特写说这种动物有猫的DNA么,我们实际上没有这个功能,但如果做了,我们可以在根节点上拆分这个特性,会导致五只猫中有五只在左边的树枝上,右边的五只猫中没有一只,这些数据的左子集和右子集都是完全纯的,不管是不是猫,都在左支和右支,所有猫的DNA特征,如果我们有这个功能,这将是一个很好的功能,但有了我们实际拥有的特征,我们将这些样本按耳朵形状、脸型、是否有胡须做成不同的决策树模型,因此决策树学习算法必须在耳朵形状、脸型、胡须之间做出选择,这些特征哪个导致最大的纯度,如果能得到一个高纯的子集,然后进行对猫的预测,得到的结果大部分都是正确的,所以当我们学习决策树时,我们必须做出的第一个决定如何选择在每个节点中生成哪个特性.
在构建决策树时,你需要做出的第二个关键决策是决定什么时候停止分类,我们使用的标准,对于上一个例子来说,直到直到百分之百所有的猫,或者百分之百所有的狗都不是猫,因为在这一点上,构建一个叶节点来进行分类预测似乎是很自然的,进一步拆分子集将导致树超过最大深度,允许树生长到的最大深度是一个可以在决策树中决定的参数,节点的深度定义为获取所需的跳数,即位于特定节点顶部的节点,所以根节点取零,跳到自己身上,深度为零,它下面的节点在深度一,下边是深度二,所以如果你决定决策树最大深度是2,然后你将决定不拆分级别以下的任何节点,所以这棵树永远到不了深度3,你可能想要限制决策树深度的一个原因是确保,首先,树不会变得太大,第二,通过保持树的小,使它不太容易过度拟合,你可能用来决定停止的另一个标准,如果纯度分数的提高,将会低于一定的阈值,但如果收益太小,可能你就不会在费心让树变小了,并降低过装风险,最后,如果节点上的示例数低于某个阈值,然后你也可能决定停止分裂,例如,如果在根节点上,在脸型特征上有分类,然后右边的分支就只有3个训练例子,一只猫两只狗,而不是把它分成更小的子集,如果你决定不使用3个或几个示例来拆分更多的示例集,然后你只需创建一个决策节点,而且因为主要是狗,这里有两三只狗,这将是一张预测不是猫的纸条,还有一个原因是为了让树变小,避免过度拟合。