当前位置: 首页 > article >正文

机器学习-基本术语

数据集:所有数据构成的一个集合。

训练:用数据集来构建模型的过程

测试:新数据输入到模型中,判断对错。

| . | . | . | Result|

色泽根蒂敲声好瓜
青绿蜷缩浊响

示例(instance):知道色泽、根蒂、敲声,不知道是不是好瓜。

样例(example):知道色泽、根蒂、敲声,也知道是不是好瓜。

样本(sample):示例或样例,根据上下文理解。

属性(attribute),特征(feature):色泽、根蒂、敲声

属性值(:青绿

属性空间、样本空间、输入空间:(色泽, 根蒂, 敲声)表示(x,y,z)三轴,空间中一个

特征向量(feature vector):(色泽, 根蒂, 敲声),类型与向量表示。

标记空间、输出空间:(输出)

模型是得到了一个规律,可以高概率解释输入与输出的映射,模型得出的是假设(hypothesis),不一定对。事实的真相(ground-truth)是一定对的。

学习器(learner):学习算法给定数据、参数设置,这时候产生出来就是模型。

输出判断:离散结果(Y/N)叫做分类,连续结果([0,1])叫做回归。

分类:

  • 二分类:Y/N
  • 多分类:大/中/小

所有分类问题都可以用二分类表示(不断用二分类?)

正/反类,抽象出来的,根据情况决定,正表示好,也可以正表示坏。

监督学习(supervised learning):有“导师”的学习。数据集中给出期待结果。典型问题:分类、回归。

无监督学习(unsupervised learning):无“导师”的学习。数据集中没有给出期待结果,无法得到判断“西瓜好坏”的模型。典型问题:离散问题的聚类。

未见样本(unseen instance):未来的新数据。

未知“分别”:所有数据来源于一个潜在的分布,该分布不知道。

独立同分布(i.i.d.):所有数据来源于一个潜在的分布。

如何突破独立同分布,前沿

泛化(generalization):模型处理新数据的能力。从特殊到一般。


http://www.kler.cn/a/397820.html

相关文章:

  • 爬虫——JSON数据处理
  • 2024-11-16-机器学习方法:无监督学习(1) 聚类(上)
  • 【Linux:IO多路复用(select、poll函数)
  • 【MySQL】SQL语言
  • RabbitMQ实战启程:从原理到部署的全方位探索(上)
  • The 3rd Universal CupStage 15: Chengdu, November 2-3, 2024(2024ICPC 成都)
  • html中select标签的选项携带多个值
  • 【EasyExcel】复杂导出操作-自定义颜色样式等(版本3.1.x)
  • 【因果分析方法】MATLAB计算Liang-Kleeman信息流
  • 网络物理隔离应用
  • 【JavaScript】LeetCode:96-100
  • 革新预测领域:频域融合时间序列预测,深度学习新篇章,科研涨点利器
  • 亚马逊云计算部门挑战英伟达,提供免费AI计算能力
  • 【游戏引擎之路】登神长阶(十四)——OpenGL教程:士别三日,当刮目相看
  • Linux TCP服务器客户端
  • Spring:bean的配置
  • XXL JOB DockerCompose部署
  • pytorch奇怪错误
  • WebRTC API分析
  • IPTV智慧云桌面,后台服务器搭建笔记
  • 《现代网络技术》读书笔记:SDN应用平面
  • 推荐一个基于协程的C++(lua)游戏服务器
  • 工业大数据分析与应用:开启智能制造新时代
  • 【mysql】基于城市多边形,配合mysql库,查询目标点是否在指定城市内
  • VSCode设置
  • RabbitMQ教程:工作队列(Work Queues)(二)