一文读懂相关性分析法
相关性分析法
- 相关性分析
- 问题的提出
- 相关关系的概念
- 相关关系的种类
- 三种相关系数
- 皮尔逊相关系数
- 斯皮尔曼秩相关系数
- 肯德尔秩相关系数
- 应用
相关性分析
问题的提出
蝴蝶翅膀震动
→
\rightarrow
→龙卷风
相关关系的概念
客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系
函数关系:
即当一个(或一组)变量每取一个值时,相应的另一个变量必然有一个确定值与之对应
如果变量之间有因果关系,那么原因变量就叫作自变量,而受自变量影响的变量就称因变量。一般自变量记为x,因变量记为y。
相关关系
变量之间存在有依存关系,但这种关系是不完全确定的随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。
- 变量间关系不能用函数关系精确表达;
- 一个变量的取值不能由另一个变量唯一确定;
- 当变量 x 取某个值时,变量 y 的取值可能有几个;
- 各观测点分布在直线周围。
具有函数关系的变量,当存在观测误差和随机因素影响时,其函数关系往往以相关的形式表现出来。
而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时相关关系也可转化为函数关系。另外,相关关系也具有某种变动规律,所以,相关关系也经常可以用一定的函数形式去近似地描述。
相关关系的种类
- 按相关的程度分
- 按相关的方向分
- 按相关的形式分
- 按相关的影响因素分
图示
三种相关系数
- 皮尔逊相关系数(Pearson Correlation Coefficient)
衡量两个连续变量之间的线性相关程度。 - 斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient)
衡量两个变量之间的单调关系,适用于非线性但单调的关联。 - 肯德尔秩相关系数(Kendall’s Tau Coefficient)
衡量两个变量之间的秩相关性,评估变量排序的一致性。
皮尔逊相关系数
公式:
取值范围:-1 到 1。
值为 1 表示完全正线性相关,值为 -1 表示完全负线性相关,值为 0 表示无线性相关。
适用条件:数据需要满足正态分布,且关系为线性。
|r|的范围在0.1-0.3是微弱相关
|r|的范围在0.3-0.5是低度相关
|r|的范围在0.5-0.8是显著相关
|r|的范围在0.8以上是高度相关
皮尔逊相关系数也等于协方差和标准差的比值
皮尔逊相关系数也可以写成以下两种形式:
或
皮尔逊相关系数的性质
样本数据点精确的落在直线上,则相关系数等于1或-1
使用原始数据的值进行计算,易受异常值影响
对称性:corr(X,Y)=corr(Y,X)
把X移动到a+bX和把Y移动到c+dY,并不会改变两个变量的相关系数绝对值
斯皮尔曼秩相关系数
公式:
用于度量两个变量的单调关系,而不要求线性关系。它基于变量的秩(排名)而非原始值。
与皮尔逊相关系数一样,取值-1到1之间
斯皮尔曼秩相关系数性质
- 适用于非线性但单调的关系
- 对离群值不敏感
下面是一个例子:
肯德尔秩相关系数
通过计算数据点对之间的一致性来衡量两个变量的相关性
- 与皮尔逊相关系数一样,取值-1到1之间
- 对异常值的敏感度较低
下面是一个肯德尔秩相关系数的例子:
三种相关系数的关系
应用
图像质量评价方法评价
SSIM(结构相似性指数,Structural Similarity Index Measure)是一个用于衡量两幅图像相似度的指标,常用于图像质量评价。