01、机器学习概述
01、机器学习概述
机器学习的定义:
机器学习的核心思想是使用数据来训练计算机算法,使其能够自动地从数据中学习并改进自己的性能,而无需明确地编程。
机器学习的算法:
- 监督学习(Supervised Learning)——用的最广泛的算法
- 无监督学习(Unsupervised Learning)
- 强化学习(Reinforcement Learning)
监督学习(Supervised Learning):
学习从x(input)到y(output)的映射算法,其中最关键的特征是,由我们去提供学习算法的示例以供学习。(Learning from being given “right answers(output labels)”)
在训练完成后,能够通过我们给出的一个未曾见过的x(input),其会尝试生成一个合理的y(output)。
监督学习得到应用场景主要有两个:
回归(Regression):
从许多可能的结果中预测一个数据(Predict a number infinitely many possible outputs)
分类(Classification):
输出类(class)和输出类型(category)经常互换使用。
预测输出类别(可以不是数字,也可以是数字),所有一小部分可能的产出。(Predict categories small number of possible outputs)。
输入值(inputs)可以为多个参数,也可以仅有一个。(Two or more inputs的话,算法可能做的是去拟合一条边界线)。
无监督学习(unsupervised learning):
从没有标签的数据集中寻找感兴趣的部分(Find something interesting in unlabeled data.),即寻找数据有可能存在的结构和模式。
更为正式的定义:
数据只来自输入且不输出标签,算法只寻找数据间的结构(Data only comes with inputs x, but not output labels y. Algorithm has to find structure in the data.)
无监督学习得到应用场景主要有两个:
聚类(Clustering):
获取没有标签的数据,并尝试自动将他们分组到集群中。(Group similar data points together.)
异常检测(Anomaly detection):
检测异常数据(Find unusual data points.)
降维(Dimensionality reduction):
压缩数据集(Compress data using fewer numbers.)
Jupyter Notebooks
学习机器学习的工具。