【西瓜书《机器学习》四五六章内容通俗理解】
第四章:决策树
4.1 决策树的构建
核心概念:决策树就像一个超厉害的 “分类小助手”,它是一棵树的形状。构建决策树的时候,就好像在玩猜东西的游戏,一个一个问题地问。每个问题就是树上的一个节点,问题的答案就是树的分支,最后猜出来的结果就是树的叶子。通过不停地问问题,把东西分成不同的类别。
例子:假如你要做一个决策树,来判断一个小动物是猫还是狗。你可以先问 “它会不会汪汪叫”,如果会汪汪叫,那大概率是狗,这就是一个叶子节点啦;要是不会汪汪叫,接着问 “它的耳朵尖不尖”,猫的耳朵通常比较尖,这样一步步问下去,就能确定是猫还是狗了。
4.2 决策树的剪枝
核心概念:在做决策树的时候,可能会想得太复杂,把一些没用的细节也加进去了,这样决策树就变得乱糟糟,对新东西的判断能力反而不好。剪枝就是把那些没用的分支去掉,让决策树变得简单又好用,能更准确地判断新东西。
例子:还是判断猫和狗的决策树,一开始你可能加了个问题 “它的尾巴上有没有毛结”,但后来发现这个问题对判断是猫还是狗没啥帮助,还让决策树变得复杂,那就把这个问题和它下面的分支都剪掉,让决策树更简洁。
第五章:神经网络
5.1 神经元与神经网络结构
核心概念:神经元是神经网络的最小零件,它有点像我们大脑里的小细胞。神经元能接收好多信号,把这些信号加起来,再经过一个特殊的 “加工”(激活函数),最后给出一个结果。好多好多神经元连在一起,就组成了神经网络,神经网络一般有输入层、中间的隐藏层和输出层。
例子:想象一个能识别花朵的神经网络。输入层就像眼睛,接收花朵图片的颜色、形状这些信息。隐藏层里的神经元就像一个个小侦探,有的专门看花瓣数量,有的研究花蕊形状。经过好几层隐藏层的分析,最后在输出层告诉我们这是什么花。
5.2 神经网络的训练
核心概念:训练神经网络,就是要调整神经元之间连接的 “紧密程度”(权重),让神经网络能把输入的东西判断对。这个过程就是不停地给神经网络喂数据,看它给出的结果和正确答案差多少,然后把这个差距反过来,去调整权重,让差距越来越小。
例子:比如训练一个识别数字的神经网络,先给它看好多写着数字的图片,它会猜图片里的数字是几。要是猜错了,就产生了误差。然后从输出层开始,把这个误差像接力一样传回到前面的每一层神经元,根据误差大小来调整神经元之间连接的权重。经过很多很多次这样的训练,神经网络对新数字图片的识别就会越来越准。
第六章:支持向量机
6.1 线性可分情况下的支持向量机
核心概念:假设有一堆球,一些是红色的,一些是蓝色的,它们在地上分布得很整齐,能用一条直线把红色球和蓝色球完全分开。支持向量机就是要找到这条直线,而且要让红色球和蓝色球离这条直线的距离尽可能远。那些离这条直线最近的球,对确定这条直线的位置最重要,它们就叫支持向量。
例子:在操场上,男生站一边,女生站一边,分布得很有规律,能用一条直线把男生女生完全分开。支持向量机就来找这条直线,让男生女生离它尽量远。那些离这条直线最近的男生和女生,就是支持向量,他们决定了这条直线该画在哪儿。
6.2 核函数与非线性支持向量机
核心概念:有时候,那些球分布得乱七八糟,在原来的平面上根本没办法用一条直线分开。这时候,支持向量机就用核函数这个神奇的工具,把这些球从原来的平面 “变” 到一个更高维度的空间里,在这个新空间里,也许就能找到一个平面把球分开了。
例子:在一张纸上有一些红色和蓝色的点,怎么都画不出一条直线把它们分开。但是用核函数把这些点 “变” 到一个立体的空间里,说不定就能找到一个平面把红色点和蓝色点分开了,就好像给这些点换了个更合适的 “家”,它们就变得有规律了。
6.3 软间隔支持向量机
核心概念:在实际生活中,数据经常不太 “听话”,会有一些捣乱的点,很难找到一个完美的平面把所有东西都分开。软间隔支持向量机就允许有一些点站错位置,但是会对这些点进行 “惩罚”,这样既能保证大部分东西能分对,又能接受一些小错误。
例子:还是操场上分男生女生,可能有几个调皮的同学站错了队伍。软间隔支持向量机不会非要把所有人都分对,而是允许这几个同学站错,但要给他们一点小惩罚,比如让他们跑一圈。这样大部分同学能站对队伍,又能容忍那几个捣乱的同学。