当前位置: 首页 > article >正文

知识体系_统计学_03_描述性统计_概括性度量

对数据的概括性度量可从三方面进行测量和描述:集中趋势、离中趋势和分布形态。

集中趋势,反映的是各数据向其中心值靠拢或聚集的程度;离中趋势,反映的是数据的离散程度,远离中心值的趋势;分布形态反映的是分布的偏态和峰态。

概括性的度量指标由于高度概括,所以一些数据细节反而体现不出来。

一、单变量概括性度量

1.集中趋势

注:众数是唯一能应用于分类型数据的集中趋势度量指标。

p截断均值:则是将数据按升序排列后,去掉最小的p/2个数据、和去掉最后面p/2个数据,再将剩余数据求平均。

几何平均数:

2.离中趋势

03119941cdf943e389e189205372ac8b.png

 (1) 分散性

 (2) 变异性

6b69bfd4457a4b1aa39ee20d8dab6c04.png

(3) 相对位置度量

(4) 分布形态(偏度、峰度)

分布形态度量指标说明
偏度

偏度为0:数据对称分布

偏度大于1或小于-1:高度偏态分布

偏度在0.5~1  或 -1~-0.5:中度偏态分布

偏度在0~0.5 或 -0.5~0:轻度偏态分布

峰度

峰度大于0:尖峰分布,数据的分布更集中

峰度小于0:扁平分布,数据的分布越分散

                                                       表1:某电脑公司近3个月销售量

234159187155172183182177163158
143198141167194225177189196203
187160214168173178184209176188
161152149211196234185189196206
150161178168174153186190160171
228162223170165179186175197208
153163218180175144178191197192
166196179171233179187173174210
154164215233175188237194198168
174226180172190172187189200211
156165175210207181205195201172
203165196172176182188195202213

a.计算方法一(函数精确计算):

偏度:excel中的skew函数

峰度:excel中的kurt函数

b.计算方法二(分组数据近似计算):

注:通过将数据分组后再计算的结果与通过函数计算有些许差异

e3fe62f3e9a44feaadf7bc6a8613135e.png

此处21.58是粗略计算的样本标准差(精确计算是21.68)

偏度:

cf4d48af222c4ca08250a6789e46b261.png

峰度:

fd7fc7fe6c174b56b1a1f15a68bed34c.png

二、两变量之间关系度量

2.1 相关性

(1)皮尔逊相关系数(两个数值型变量)

(2)斯皮尔曼秩相关系数(数值型和顺序型)

c1e3ac9da4014e57807aac25e51d2bcc.png

三、统计数字如何说谎

说谎伎俩举例
集中趋势:精心挑选的平均数

容易受极端值影响,只有在数据分布比较均匀时有用:

67cab46269524301805ff8c4afb1878e.png

集中趋势:自以为公平的中位数

中位数只能告诉我们有一半的数据低于该值,一半的数据高于该值,其他信息提供不了一点,所以中位数并不等同于告诉我们整体数据就分布在中位数附近。有可能前后两部分数据分布差异很大。

2014f063a4f043668b5a4b8de9168d50.png

集中趋势:不是什么情况下都有用的众数

无用的情况:当众数多,没有代表性

有用的情况:当众数少,而且该众数的相对频数较高时比较具有代表性

集中趋势:几何平均和算术平均傻傻分不清
离中趋势:极差容易受极端值影响,反映不了真实的数据分布差异,而四分位距不受极端值影响,可采用四分位距

图形类型错误形式及解决方案

参考:

《深入浅出统计学 第二章、第三章》

《统计学 第七版 第四章》

《商务与经济统计 第三章》

《统计数字会说谎 》


http://www.kler.cn/a/517951.html

相关文章:

  • 【Redis】常见面试题
  • 生信软件管家——conda vs pip
  • 单相可控整流电路——单相桥式全控整流电路
  • 信息系统管理工程师第6-8章精讲视频及配套千题通关双双发布,附第14章思维导图
  • 第二十一周:Mask R-CNN
  • erase() 【删数函数】的使用
  • 2025数学建模美赛|B题成品论文
  • GraphRAG 简介
  • 「全网最细 + 实战源码案例」设计模式——原型模式
  • 使用 Docker Compose 一键启动 Redis、MySQL 和 RabbitMQ
  • Linux 常用命令——软件篇(保姆级说明)
  • 13.快速构建领域知识库的完整指南:结合 ChatGPT 与 Python 提升效率
  • kafka-部署安装
  • 自定义注解
  • tkinter绘制组件(44)——浮出ui控件
  • css-background-color(transparent)
  • 【玩转全栈】----Django基本配置和介绍
  • LeetCode题练习与总结:分糖果--575
  • 算法刷题Day27:BM65 最长公共子序列(二)
  • SpringCloud两种注册中心
  • 代码随想录刷题day14(2)|(链表篇)02.07. 链表相交(疑点)
  • 《网络安全中的“泛洪”攻击:揭秘、防范与应对策略》
  • TIM编码器接口函数及应用
  • 环境变量配置与问题解决
  • Gin 学习笔记
  • JAVA实战开源项目:在线旅游网站(Vue+SpringBoot) 附源码