当前位置: 首页 > article >正文

【小白学机器学习25 】 用交叉表去理解自由度的计算

目录

1 交叉表

1.1 什么是交叉表?Cross tabulation 

1.2 交叉的3层理解

1.3 交叉表规则

2 用交叉表的角度看自由度的计算(rows-1)*(columbs-1)

2.1 用交叉表的角度计算自由度

2.2 如何理解这个公式

2.3 下图用交叉表举例说明

2.3.1  比如2*2 table

2.3.2 比如2*3table

2.4 总结 DF= (rows-1)*(columbs-1)

3 自由度和K2分布的关系


1 交叉表

1.1 什么是交叉表?Cross tabulation 

  • 名字:Cross tabulation  Cross-tabulation  Crosstabulation 
  • 交叉表,简单的说,就是2个变量形成一张 纵横的表格,中间交叉的地方是数据点。
  • 也就是一般意义上的一张二维表,比如典型的EXCEL

1.2 交叉的3层理解

交叉就是产生数据点,如何产生的数据点,可以多种理解

  • 理解1:把交叉表理解成表格,横的行和纵的列相交,从图形上直接观察有很多点
  • 理解2:从排列组合的角度理解:row的多种分支 * column的多种分支,生成的不同的组合。比如行A:a1,a2行,分别和列B:b1,b2列相组合,成为新的组合。a1b1,a1b2,a2b1,a2b2。所以,从组合的角度理解(不看排序):情况相乘= 组合的数量
  • 理解3:理解成表格,横的行和纵的列相乘。从矩阵相乘的角度可以理解,把row 和 coulum分别理解为 行向量,列向量就可以。

1.3 交叉表规则

经常展示定类变量和定序变量之间的关系。

约定如下规则:

  • 1个变量,行 row
  • 1个变量,列 column

名字:

  • two by two table
  • two by three table

2 用交叉表的角度看自由度的计算(rows-1)*(columbs-1)


2.1 用交叉表的角度计算自由度

  • DF=(行数-1)*(列数-1)
  • DF=(rows-1)*(columbs-1)


2.2 如何理解这个公式

  • 就是一个交叉表里,可以自由确定数值的单元格的数量
  • 如果自由确定了一个单元格的的值以后,如果有一些单元格的值跟着就被确定了(因为存在相关关系,比如sum=1),那么这些单元格就不是自由的,不算自由度。
  • 所以一个交叉表里,去掉那些被决定的单元格,可以自由确定数值的单元格的数量就是自由度df

2.3 下图用交叉表举例说明

2.3.1  比如2*2 table

  • 当确定单元格1*1 之后
  • 发现,横向,因为变量2=T时概率=α,分支只有2种情况:变量1要么=T,要么=F,概率和=100%,因此变量1*F概率=1-α(单元格1*2)
  • 同样变量2*F=1-α(单元格2*1)
  • 单元格2*2同样被决定了=α
  • 因此只有1个单元格是自由的,df=1

2.3.2 比如2*3table

  • 同样只有标记黄色的2个单元格是自由的
  • 这2个单元格数值确定了以后,其他单元格的数值都被确定了下来。
  • 注意,其实可以任意选表中的2个单元格推导都是一样的!

2.4 总结 DF= (rows-1)*(columbs-1)

  • DF= (rows-1)*(columbs-1)
  • 从上面表上可以看出,去掉1行,去掉一列后的交叉表相乘的结果刚好= 自由度df

3 自由度和K2分布的关系

  • 因为k2分布对应这样的一张表
  • K2分布的计算公式=Σ(观察值-预期值)^2/预期值。所以如果观察值越多,理论上,分子就会越大,K2值会越大。
  • 交叉表的自由度如果越大,意味着交叉表本身的单元格越多,从而计算出来的k2分布的k2值会比较大


http://www.kler.cn/a/376303.html

相关文章:

  • 【3】流程控制
  • 软考(中级-软件设计师)计算机网络篇(1101)
  • 使用GraphQL构建现代API
  • 在服务器运维过程中,发现服务器时间倒退以及DNS无法解析域名造成yum不可用的问题解决
  • 【Java Web】使用JDBC操作数据库(含代码示例)
  • 讲讲 kafka 维护消费状态跟踪的方法?
  • Markdown自学第二课之记笔记——HTML第一弹
  • go语言gin框架平滑关闭——思悟项目技术2
  • 【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式
  • 异步编程的利之Future模式深入解析(In Depth Analysis of Future Patterns)
  • 数据可视化组件DataV在Vue3中的基本使用
  • 【GIN】go-gin 中 validator 验证功能
  • 【element el-date-picker限制时间选择范围】
  • 鸿蒙生态:机遇与挑战
  • 一对一直播源码搭建部署环境说明
  • 【性能测试】jmeter如何写入数据到文件,做持久化保存
  • linux之网络子系统-用户层接收数据包之多路复用方案(epoll)
  • jenkins 构建报错 mvn: command not found
  • 高压线路覆冰厚度测量,输电线路微波覆冰监测装置守护电网安全
  • 【Python系列】poetry安装与使用
  • WPF+MVVM案例实战(十八)- 自定义字体图标按钮的封装与实现(ABD类)
  • arcgis坐标系问题
  • 虚拟机指定固定ip地址
  • 自然语言处理(文本预处理基础)
  • Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
  • Go语言的使用