机器学习(1)机器学习的概念与应用领域
文章目录
- 一、前提
- 二、机器学习的概念与应用领域
- 1.认识
- ①亚瑟•塞缪尔的定义
- ②汤姆·米切尔的定义
- 2.相关术语
- 数据术语
- 训练模型术语
- 获得模型后术语
- 3.应用领域
- 语音识别
- 计算机视觉
- 自然语言处理
- ①自然语言分析
- ②自然语言生成
- 大数据分析
一、前提
Python语言具有数量庞大且功能相对完善的标准库和第三方库,通过对这些库的引用,能够实现不同领域业务的开发。然而,由于库的数量庞大,安装、管理这些库,以及对库进行及时升级维护成为一件复杂的事情。因此,找到“已经集成好必要库的Python开发环境”就变得尤为重要。
Anaconda集成了包含NumPy、SciPy、Pandas、Matplotlib、Scikit-learn等机器学习常用库在内的180多个工具包,使用Anaconda可一次性安装Python开发环境及大量的第三方库。
使用Anaconda搭建机器学习开发环境的具体步骤分解如下
-
第 1 步:下载Anaconda,从Anaconda的官方网站或者国内镜像站点下载Anaconda软件包。
Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
-
第2步:双击下载好的Anaconda安装程序,根据安装步骤完成Anaconda的安装。
-
第3步:启动Jupyter Notebook,使用Jupyter Notebook编辑、运行和调试程序。(pycharm也是可以的)
二、机器学习的概念与应用领域
1.认识
在学术界,机器学习还没有一个公认且准确的定义。
①亚瑟•塞缪尔的定义
机器学习是一个研究领域,让计算机无须进行显著式编程就具备学习能力。
什么是“显著式编程”?举例说明,假如要让计算机识别菊花和玫瑰花,人为地告诉计算机菊花是黄色的,玫瑰花是红色的。那么,计算机“看到”黄色的花就认为是菊花,“看到”红色的花就认为是玫瑰花,这样的编程方式就是“显著式编程”。
但是,如果给计算机一批菊花的图片和一批玫瑰花的图片,然后编写程序,让计算机自己总结出识别菊花和玫瑰花的规律,再来辨认菊花和玫瑰花。这种让计算机自己总结规律的编程方式是“非显著式编程”
②汤姆·米切尔的定义
一个计算机程序被称为可以学习,是指它针对某个任务T和某个性能指标P,能够从经验E中去学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。在识别菊花和玫瑰花的例子中,任务T就是编写计算机程序识别菊花和玫瑰花;经验E就是给计算机输入一批菊花和玫瑰花的图片;而性能指标P可以认为是能正确识别菊花和玫瑰花的概率。
综合分析学者们的描述,机器学习可以这样理解
机器学习(machine learning, ML)是研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能的技术,是一门通过编程让计算机从数据中进行学习的科学。
2.相关术语
数据术语
① 机器学习的基础是大量的数据,具有相似结构的数据样本集合称为数据集;
② 数据集的每条记录是关于一个事件或对象的描述,称为一个样本或示例;
③ 反映事件或对象在某方面的表现或性质的事项,称为特征或属性;(类)
④ 属性上的取值称为特征值或属性值;(对象)
⑤ 描述样本特征参数的个数称为维数。
训练模型术语
① 从数据中学习得到模型的过程称为训练或学习;
② 训练过程中使用的数据称为训练数据,每个样本称为训练样本,训练样本组成的集合称为训练集;
③ 为得到效果最佳的模型,用来调整模型参数的样本称为验证样本,验证样本组成的集合称为验证集。
获得模型后术语
① 使用模型对未知数据进行预测的过程称为测试,用于预测的样本称为测试样本,测试样本组成的集合称为测试集;
② 模型适用于新样本的能力,称为泛化能力。
3.应用领域
技术的不断进步,使得机器学习的应用领域越来越宽广,应用效果也越来越显著。总体来说,机器学习的应用主要集中在语音识别、计算机视觉、自然语言处理、与大数据分析等领域。
语音识别
语音识别是让机器理解人说话的声音信号,并将其转换成文字的过程,它是机器学习较早的应用领域。
语音识别算法是语音输入法、人机对话系统等应用的关键技术。
计算机视觉
计算机视觉是研究如何让机器“看”的科学。
目前常用的计算机视觉技术包含人脸识别、指纹识别、车牌识别等。其目的在于使用计算机代替人眼,对目标进行识别、跟踪,以及估计目标的大小与距离等。
自然语言处理
自然语言处理是计算机科学与语言学相结合而产生的一个应用领域,主要研究使用电子计算机模拟人的语言交际过程,使计算机能理解和运用人们生活中使用的自然语言,实现人机之间的自然语言通信,从而进一步实现计算机代替人进行部分脑力劳动的目标。
其中,部分脑力劳动主要包括查询资料、解答问题、摘录文献、汇编资料,以及一切与自然语言信息有关的加工处理。
①自然语言分析
包括分词方法、命名实体识别、句法分析、语义分析等方面的研究,这些方面的研究都以机器学习技术为基础,如对分词方法的研究会涉及隐马尔可夫模型;
②自然语言生成
是将存储于计算机中的数据转化为人们能够理解的自然语言.如GTP大语言模型
大数据分析
机器学习与大数据的结合将产生巨大的价值。目前,机器学习技术已经在电子商务、互联网金融、旅游推荐、社交网络分析等众多行业和领域中得到广泛应用。
例如,在金融领域,银行可利用机器学习技术,对消费者的刷卡数据进行统计和分类,从而获得消费者的消费习惯、消费能力和消费偏好等具有商业价值的数据信息,向消费者精准推荐各种服务(如理财或信贷服务);电信行业可以借助以机器学习为基础的大数据处理软件,对用户信息进行处理,从而得到能够查询客户信用情况的数据,使得第三方企业可以凭借这些数据信息制订市场分析报告或对目标客户群体的行为轨迹进行分析。