知识体系_统计学_03_描述性统计_概括性度量
对数据的概括性度量可从三方面进行测量和描述:集中趋势、离中趋势和分布形态。
集中趋势,反映的是各数据向其中心值靠拢或聚集的程度;离中趋势,反映的是数据的离散程度,远离中心值的趋势;分布形态反映的是分布的偏态和峰态。
概括性的度量指标由于高度概括,所以一些数据细节反而体现不出来。
一、单变量概括性度量
1.集中趋势
注:众数是唯一能应用于分类型数据的集中趋势度量指标。
p截断均值:则是将数据按升序排列后,去掉最小的p/2个数据、和去掉最后面p/2个数据,再将剩余数据求平均。
几何平均数:
2.离中趋势
(1) 分散性
(2) 变异性
(3) 相对位置度量
(4) 分布形态(偏度、峰度)
分布形态度量指标 | 说明 |
偏度 | 偏度为0:数据对称分布 偏度大于1或小于-1:高度偏态分布 偏度在0.5~1 或 -1~-0.5:中度偏态分布 偏度在0~0.5 或 -0.5~0:轻度偏态分布 |
峰度 | 峰度大于0:尖峰分布,数据的分布更集中 峰度小于0:扁平分布,数据的分布越分散 |
表1:某电脑公司近3个月销售量
234 | 159 | 187 | 155 | 172 | 183 | 182 | 177 | 163 | 158 |
143 | 198 | 141 | 167 | 194 | 225 | 177 | 189 | 196 | 203 |
187 | 160 | 214 | 168 | 173 | 178 | 184 | 209 | 176 | 188 |
161 | 152 | 149 | 211 | 196 | 234 | 185 | 189 | 196 | 206 |
150 | 161 | 178 | 168 | 174 | 153 | 186 | 190 | 160 | 171 |
228 | 162 | 223 | 170 | 165 | 179 | 186 | 175 | 197 | 208 |
153 | 163 | 218 | 180 | 175 | 144 | 178 | 191 | 197 | 192 |
166 | 196 | 179 | 171 | 233 | 179 | 187 | 173 | 174 | 210 |
154 | 164 | 215 | 233 | 175 | 188 | 237 | 194 | 198 | 168 |
174 | 226 | 180 | 172 | 190 | 172 | 187 | 189 | 200 | 211 |
156 | 165 | 175 | 210 | 207 | 181 | 205 | 195 | 201 | 172 |
203 | 165 | 196 | 172 | 176 | 182 | 188 | 195 | 202 | 213 |
a.计算方法一(函数精确计算):
偏度:excel中的skew函数
峰度:excel中的kurt函数
b.计算方法二(分组数据近似计算):
注:通过将数据分组后再计算的结果与通过函数计算有些许差异
此处21.58是粗略计算的样本标准差(精确计算是21.68)
偏度:
峰度:
二、两变量之间关系度量
2.1 相关性
(1)皮尔逊相关系数(两个数值型变量)
(2)斯皮尔曼秩相关系数(数值型和顺序型)
三、统计数字如何说谎
说谎伎俩 | 举例 |
集中趋势:精心挑选的平均数 | 容易受极端值影响,只有在数据分布比较均匀时有用: |
集中趋势:自以为公平的中位数 | 中位数只能告诉我们有一半的数据低于该值,一半的数据高于该值,其他信息提供不了一点,所以中位数并不等同于告诉我们整体数据就分布在中位数附近。有可能前后两部分数据分布差异很大。 |
集中趋势:不是什么情况下都有用的众数 | 无用的情况:当众数多,没有代表性 有用的情况:当众数少,而且该众数的相对频数较高时比较具有代表性 |
集中趋势:几何平均和算术平均傻傻分不清 | |
离中趋势:极差 | 容易受极端值影响,反映不了真实的数据分布差异,而四分位距不受极端值影响,可采用四分位距 |
图形类型 | 错误形式及解决方案 |
参考:
《深入浅出统计学 第二章、第三章》
《统计学 第七版 第四章》
《商务与经济统计 第三章》
《统计数字会说谎 》