【小白学机器学习25 】 用交叉表去理解自由度的计算
目录
1 交叉表
1.1 什么是交叉表?Cross tabulation
1.2 交叉的3层理解
1.3 交叉表规则
2 用交叉表的角度看自由度的计算(rows-1)*(columbs-1)
2.1 用交叉表的角度计算自由度
2.2 如何理解这个公式
2.3 下图用交叉表举例说明
2.3.1 比如2*2 table
2.3.2 比如2*3table
2.4 总结 DF= (rows-1)*(columbs-1)
3 自由度和K2分布的关系
1 交叉表
1.1 什么是交叉表?Cross tabulation
- 名字:Cross tabulation Cross-tabulation Crosstabulation
- 交叉表,简单的说,就是2个变量形成一张 纵横的表格,中间交叉的地方是数据点。
- 也就是一般意义上的一张二维表,比如典型的EXCEL
1.2 交叉的3层理解
交叉就是产生数据点,如何产生的数据点,可以多种理解
- 理解1:把交叉表理解成表格,横的行和纵的列相交,从图形上直接观察有很多点
- 理解2:从排列组合的角度理解:row的多种分支 * column的多种分支,生成的不同的组合。比如行A:a1,a2行,分别和列B:b1,b2列相组合,成为新的组合。a1b1,a1b2,a2b1,a2b2。所以,从组合的角度理解(不看排序):情况相乘= 组合的数量
- 理解3:理解成表格,横的行和纵的列相乘。从矩阵相乘的角度可以理解,把row 和 coulum分别理解为 行向量,列向量就可以。
1.3 交叉表规则
经常展示定类变量和定序变量之间的关系。
约定如下规则:
- 1个变量,行 row
- 1个变量,列 column
名字:
- two by two table
- two by three table
2 用交叉表的角度看自由度的计算(rows-1)*(columbs-1)
2.1 用交叉表的角度计算自由度
- DF=(行数-1)*(列数-1)
- DF=(rows-1)*(columbs-1)
2.2 如何理解这个公式
- 就是一个交叉表里,可以自由确定数值的单元格的数量
- 如果自由确定了一个单元格的的值以后,如果有一些单元格的值跟着就被确定了(因为存在相关关系,比如sum=1),那么这些单元格就不是自由的,不算自由度。
- 所以一个交叉表里,去掉那些被决定的单元格,可以自由确定数值的单元格的数量就是自由度df
2.3 下图用交叉表举例说明
2.3.1 比如2*2 table
- 当确定单元格1*1 之后
- 发现,横向,因为变量2=T时概率=α,分支只有2种情况:变量1要么=T,要么=F,概率和=100%,因此变量1*F概率=1-α(单元格1*2)
- 同样变量2*F=1-α(单元格2*1)
- 单元格2*2同样被决定了=α
- 因此只有1个单元格是自由的,df=1
2.3.2 比如2*3table
- 同样只有标记黄色的2个单元格是自由的
- 这2个单元格数值确定了以后,其他单元格的数值都被确定了下来。
- 注意,其实可以任意选表中的2个单元格推导都是一样的!
2.4 总结 DF= (rows-1)*(columbs-1)
- DF= (rows-1)*(columbs-1)
- 从上面表上可以看出,去掉1行,去掉一列后的交叉表相乘的结果刚好= 自由度df
3 自由度和K2分布的关系
- 因为k2分布对应这样的一张表
- K2分布的计算公式=Σ(观察值-预期值)^2/预期值。所以如果观察值越多,理论上,分子就会越大,K2值会越大。
- 交叉表的自由度如果越大,意味着交叉表本身的单元格越多,从而计算出来的k2分布的k2值会比较大