当前位置: 首页 > article >正文

机器学习基本篇

1 基本概念

机器学习,分为 回归,分类,聚类,降维
有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测
无监督学习 聚类,降维。

题目越多,训练越好,

2 基本流程

数据预处理—— 模型训练与评估
可以优化为 获取数据——数据预处理——EDA 分析——特征工程——模型训练——可解释性分析

2.0 数据获取

利用 kaggle, 天池 等平台的 开源 数据,

2.1 预处理

目的:

  1. 让数据更符合逻辑
  2. 让数据更容易计算
    借助函数实现变换 or 运算
认识数据

常用 pandas 包,是 python 中一个强大的数据分析和处理库。
其可以

  1. 数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。
  2. 数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等
  3. 对数据进行时间序列分析,移动窗口统计等操作

** 部分常用 API **
import pandas as pd
读取数据
df = pd.read_csv(‘data.csv’)
查看数据
df.head()
显示数据集形状. (几行几列)
df.shape

查看数据集信息。 (特征的种类和标签)
Data.info
空值的数量
mean 均值
std 标准差
min 最小值
25% 第 25 百分位数
max 最大值
unique 唯一值数量
top 出现频率最高的值
freq 最高频率出现次数

显示数据集的统计特征,
df.decribe()


http://www.kler.cn/a/550576.html

相关文章:

  • DeepSeek教unity------State Machine
  • 解锁大数据治理:开启数据驱动的新时代
  • Go 语言里中的堆与栈
  • VScode运行后出现黑窗口
  • UE5 Niagara 粒子远处闪烁解决
  • FPGA实现SDI视频解码转GTY光口传输,基于GS2971+Aurora 8b/10b编解码架构,提供工程源码和技术支持
  • kubernetes源码分析 kubelet
  • java速通笔记
  • Windows Docker运行Implicit-SVSDF-Planner
  • 【项目实战】日志管理和异步任务处理系统
  • 滴水逆向_新增节
  • sql语言语法的学习
  • 【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架
  • Vue 基础入门——起步与简单应用
  • Failure [INSTALL_FAILED_VERSION_DOWNGRADE]
  • 08模拟法 + 技巧 + 数学 + 缓存(D4_缓存)
  • 蓝桥杯之最短路径算法
  • 【苍穹外卖】学习
  • 冒险岛079 V8 整合版源码搭建教程+IDEA启动
  • leetcode:643. 子数组最大平均数 I(python3解法)