当前位置: 首页 > article >正文

机器学习杂笔记1:类型-数据集-效果评估-sklearn-机器学习算法分类

文章目录

    • 1.类型
    • 2.数据集
    • 3.效果评估
    • 4.sklearn
    • 5.sklearn机器学习算法
    • 七种数据分析方法
      • 1.对比分析
      • 2.细分分析
      • 3.A/B测试 (单一变量分析)
      • 4.漏斗分析
      • 5.留存分析
      • 6.相关分析
      • 7.聚类分析

1.类型

【1】监督学习:从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习
任务:分类/回归

【2】无监督学习:在数据中发现一些规律
任务:聚类/降维

【3】半监督学习:介于监督学习与非监督学习之间的学习,一种增强学习,问题可以通过决策来获得反馈,但是反馈与某一个决策可能没有直接关系

2.数据集

三种类型

【1】训练集:用来进行训练(产生模型或算法)的数据集
规模:50%以上
问题:过度拟合

【2】测试集:用来专门进行测试已经学好的模型或者算法的数据集
规模:25%

【3】验证集:调整超参数变量
规模:余下部分

交叉验证

将数据集分成N块,使用N-1块进行训练,在另一块上测试。一次循环,直到每一块都测试过。

优点:
1.充分利用数据,在数据较少的情况下也能有较好的表现
2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法

3.效果评估

1.无监督学习
真阳性(TP):正确识别目标
假阳性(FP):错误识别目标
真阴性(TN):正确识别非目标
假阴性(FN):错误识别非目标

【指标】
准确率(ACC):(TP+TN)/(TP+TN+FP+FN)
精确率(P):TP/(TP+FP)
召回率(R):TP(TP+FN)

4.sklearn

sklearn.datasets.load_* 获取小规模数据集
sklearn.datasets.fetch_* 获取大规模数据

5.sklearn机器学习算法

【分类】
`K-近邻算法 sklearn.neighbors   
贝叶斯算法   sklearn.naive_bayes
逻辑回归 sklearn。linear_model.LogisticRegression
决策树与随机森林 sklearn.tree
  
 【回归】
 线性回归  sklearn.linear_model.LinearRegression
 岭回归   sklearn.linear_model.Ridge
【无监督学习】
聚类 sklearn。cluster.KMeans
  

七种数据分析方法

1.对比分析

对比数量差异
例如:时间维度上进行环比、同比、定基对比

2.细分分析

逐步分析:例如-销售额上涨,先拆分到国家、省、市、门店,对比分析哪个区域变大带来的,或者拆分到大的品类、在进行细分到某个小的单品

交叉细分:同时选取两个或者三个维度的变量综合分析对结果或者群体的影响(例如:四象限分析、RFM模型)

3.A/B测试 (单一变量分析)

4.漏斗分析

漏斗图,展示某个特定流程中事件的变化情况,主要用于统计和计算转化率等关键数据
首先确定用户转化路径,之后通过量化每一步的转化率,来衡量一个商业或者产品的成败及可优化调整的点

一款电商类APP,从用户下载、访问、注册、浏览、交易,计算每一步的数值及漏斗比例

5.留存分析

用来分析用户参与情况/活跃程度的分析模型

常见留存指标有次日留存、七日留存、十五日留存、月留存等,表示目标用户在一段时间后回访产品或回到产品中完成某个行为的比例

6.相关分析

研究现象之间是否存在某种依存关系

方法:散点图、相关系数等

分类:单相关、复相关、偏相关

7.聚类分析

将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程

常见应用:用户细分、异常检测


http://www.kler.cn/a/407045.html

相关文章:

  • Vue3+SpringBoot3+Sa-Token+Redis+mysql8通用权限系统
  • 浪潮信息自动驾驶框架AutoDRRT 2.0,赋能高阶自动驾驶
  • 微信分账系统供应链分润微信支付 (亲测源码)
  • 项目学习:仿b站的视频网站项目03-注册功能
  • Sobey融媒体 硬编码漏洞复现
  • 项目上线之后,出现过线上问题吗?怎么排查和解决的?
  • PH热榜 | 2024-11-23
  • RabbitMQ高可用延迟消息惰性队列
  • Unity图形学之法线贴图原理
  • Python设计模式详解之10 —— 外观模式
  • 1123--日期类
  • 华为防火墙技术基本概念学习笔记
  • 医学AI公开课·第一期|Machine LearningTransformers in Med AI
  • D77【 python 接口自动化学习】- python基础之HTTP
  • 对撞双指针(七)三数之和
  • Jetpack Compose 如何布局解析
  • 系统设计---RBAC模型与ABAC模型
  • 【H2O2|全栈】JS进阶知识(九)ES6(5)
  • 大语言模型---Llama模型文件介绍;文件组成
  • 探索Python网络请求新纪元:httpx库的崛起
  • 小白投资理财 - 解读威廉分形指标 Williams Fractals
  • 高度统一:极大和极小如何统于一
  • 0基础如何进入IT行业?
  • 爬虫实战:采集知乎XXX话题数据
  • @RequestBody和前端的关系以及,如何在前后端之间传递数据?
  • mybatis-plus方法无效且字段映射失败错误排查