当前位置：首页 > article >正文

机器学习特征分析

article 2025/3/17 3:11:58

机器学习的常规流程

在真正进入机器学习算法之前，数据准备和处理过程会尤为重要，这直接关系到后续模型的效果和最终的业务判决。

数据分析

什么是数据分析

数据分析指对原始数据进行检查、清理、转换及筛选等一系列动作，找到数据对结果的影响关系。

怎么数据分析

数据分析的三板斧：数据对比、数据细分和数据溯源。

数据对比：对比是能够看到数据自身以及和其它变量的关系。比如，电商场景中上个月和这个月的用户数量变化，GMV变化；
数据细分：系分是指对数据增加维度、降低粒度，便于更好的对比。比如客群，会分为男性、女性，性别下又会有年龄的划分，年龄后还会有职业等等；
数据溯源：分析的数据有可能是二手的，得到的信息片面、阉割，所以需要找到一手原始数据，真实反应业务情况。当然，另一种可能是数据本身采集指标不合理，所以需要找到源头；

数据分析的维度

描述性统计指标

集中趋势看平均值、中位数和众数
离散程度看极差、方差、标准差、离散系数；（极差：样本最大值和最小值的间距；方差：度量数据离散程度；标准差：反应数据在均值附近的波动；离散系数：标注差和均值的比例）
分布形态：正态分布、高斯分布、峰度等；通常，数据处于正态分布情况下，训练越容易收敛，所以会看到数据的归一化处理；

交叉维度

相关系数：反应两个变量的相关性；
线性回归：回归分析两种或两种以上变量的相互依赖；有一元线性回归和多元线性回归。

概率分布

连续性变量正态分布
离散性变量伯努利分布、泊松分布

数据分析抽样方式

随机抽样
分层抽样
群体抽样
系统抽样

数据与业务关联

数据分析要确定业务目标，根据业务需求制定合理的metrics，因业务和场景而异，本文不做过多赘述；

数据清理与预处理

数据规整

现实中的数据，有的有量纲，比如身高、体重，有的没有量纲，比如性别、职业，不同类型的数据直接给到模型，对模型的精度影响非常大，所以需要对数据做规整，消除量纲差异性；

数据标准化

数据标准化主要是为了将数据按比例缩放，使之落入一个特定的小区间，如0-1之间或者-1到1之间。这样可以消除数据单位对结果的影响，使得不同量级的特征在计算时可以被公平地对待。

数据归一化

归一化的重点在于将数据的范围缩放到一个特定的区间，最常见的是[0, 1]区间。它的主要目标是改变变量的尺度，而不一定要求数据符合特定的分布形态，更多是为了处理特征之间的可比性问题，尤其是在距离度量（如欧氏距离）相关的算法中更为重要。归一化方法是min-max缩放；

异常值监测和分析

异常值分析是检验数据中是否有不合理的数据。注意：数据异常值不一定是错误值

描述统计性分析

如上所述，常见的有min/max/avg/mid等，明显不合理的数据清除或填充处理

Z-Score分析(描述与平均值的距离是标准差的多少倍)

在正态分布下，距离平均值 3 $\sigma$ 之外的值出现的概率为 P(|x-μ|>3σ)<=0.003，属于极个别的小概率事件。如果观测值与平均值的差值超过3倍标准差，那么可以将其视为异常值。

IQR异常监测

四分位点内距（Inter-Quartile Range，IQR），是指在第75个百分点与第25个百分点的差值，或者说，上四分位数与下四分位数之间的差。通常把小于Q1-1.5*IQR和Q3+1.5*IQR的数据视为离群点；

异常值处理

异常值处理有3中模式：删除异常值数据、插补替换异常值和不处理，将异常值视为特殊的类别；

缺失值处理

对于缺失值，通常的处理方式是删除缺失值所在的数据行、填充缺失值、插补缺失值。

业务分析模型

ABTest 最常用的线上业务对比方法；

RFM分析

衡量客户价值和客户创利能力的重要工具和手段。通过细分Recently最近一次消费、Frequency消费频率和Monetary消费金额。

AARRR漏洞分析法，描述产品生命周期中用户的参与行为深度

同期群分析，分析性质完全一样的、可对比群体随时间的变化

对比分析，环比、同比、标准对比等

查看全文

http://www.kler.cn/a/297193.html

Linux IO模型（多路复用）

【Unity开发】Blender导入VRM格式注意事项

隔离式安全栅和晶体管安全栅有什么区别

Flutter Button使用

高反差保留DetailTransfer测评

WUKONG-AI员工初体验

Sapiens: Foundation for Human Vision Models

算法day22|组合总和（含剪枝）、40.组合总和II、131.分割回文串

基于深度学习的对抗鲁棒性增强

C++动态规划

Pygame中获取鼠标位置的方法

c语言 #define 详解

数据结构：（牛客）CM11 链表分割

【Python基础学习】100个Python精选库

萌新5：日历游戏（博弈论，递推找规律）

【论文精读】 | 用于时间序列预测的通道对齐坚固的混合Transformer

vulhub spring 远程命令执行漏洞（CVE-2022-22963）

【网络安全】分析JS文件实现账户接管

数据结构：哈希表

java后端保存的本地图片通过ip+端口直接访问