数据特征工程:离散趋势指标分析
目录
0 引言
1 极差
2 平均差
3.1 简单算术平均式
3.2 加权算术平均差
3 标准差和方差
3.1 简单平均式
3.2 加权平均式
4 变异系数
5 数据的标准化
6 是非标志的标准差
7 小结
0 引言
如果说集中趋势指标反映的是同质性总体的共性、集中性,则离散趋势指标反映的是它们的个性、差异性。要研究总体的分布特征,离散程度是一个很重要的方面。
集中趋势指标将总体各单位标志值的差异抽象化,以反映这些标志值的一般水平,所以平均指标只能综合反映各单位某一数量标志的共性,而不能反映它们之间的差异性,还不能全面描述总体标志值分布的特征。因为总体内各单位标志值具有差异,有高有低,有大有小;平均数背后隐藏了最大值与最小值之间的差异,有的差距不大,有的则非常悬殊。
离散趋势指标是反映总体各单位标志值的差异程度,亦即反映分配数列中以平均数为中心各标志值变动范围或离差程度,所以又称为标志变异。如果说平均指标说明数据的集中趋势,那么离散趋势指标则反映数据的离散趋势。
利用标志变异指标,可以衡量平均数的代表性高低。平均数的代表性取决于数据分布的差异程度,而标志变异指标正是测定这种差异程度的。因此通过标志变异指标可以说明平均数的代表性。一般来说,标志变异指标的数值越大,平均数的代表性越低;反之,标志变异指标的数值越小,平均数的代表性越高。
举例1:
某班两个小组学生的英语考试成绩资料如下。
第一组:50,70,80,90,95
第二组:70,72,75,83,85
这两个小组的平均考试成绩都是77分,但各组同学考试成绩的变异程度不同。很显然第一组各个同学分数之间的差异要大于第二组,即标志变异程度大,因此第二小组的平均数77分比第一小组平均数77分的代表性高。
常用的指标离散趋势指标有极差、平均差、方差、标准差、变异系数等。
1 极差
极差又称全距,是指总体各单位标志值中最大值与最小值之差,表明标志值的变动幅度和范围。用公式表示为
R=Xmax-Xmin=X(n)-X(1)
根据例1资料计算的极差为第一小组:极差=95-50=45(分);第二小组:极差85-70=15(分)。计算结果表明,虽然两个小组的平均成绩都是77分,但成绩的极差第二组小于第一组,说明第二组的平均数代表性高于第一组。极差计算方法简便,意义明确,容易理解,在实际工作中常用于粗略说明被研究对象的变异程度大小。但极差只考虑了总体单位标志值的最大和最小两端的数值,没有考虑中间各项数值的分布和影响,所以不能全面、准确地反映现象的离散程度。
2 平均差
平均差是总体中各单位标志值对其算术平均数的离差绝对值的算术平均数。由于它考虑了数列中各项标志值变动的影响,因而克服了极差的不足,能够全面反映所研究总体的平均差异程度。平均差通常用字母MD表示。
由于各标志值与其算术平均数的离差之和等于零,所以各项离差的平均数也等于零。在计算平均离差时,为了避免正负离差相互抵消,先取离差的绝对值,再求离差绝对值的平均数,即平均差是平均绝对离差的简称。
根据所掌握的资料不同,平均差有简单算术平均差和加权算术平均差两种。
3.1 简单算术平均式
如果掌握的是未分组的资料,就可采用简单算术平均式。其计算公式为
根据例1的资料计算平均差,如表1所示。表1 两组学生英语考试成绩平均差计算表
第一小组的平均差:
M=
=13.6(分)
第二小组的平均差:M=
=5.6(分)
上述计算结果表明,虽然两个小组同学的英语平均考试成绩都是77分,但第二小组的平均差(5.6分)低于第一小组的平均差(13.6分),所以第二小组平均数的代表性高于第一小组。
3.2 加权算术平均差
如果掌握的资料是经过加工整理的分组资料,就需要采用加权算术平均差。其计算公式为
其中,fi代表各组次数
例2 某班级2013学年“应用统计学”课程考试成绩如表2所示,试计算平均差。
根据资料计算,全班同学“统计学”考试平均成绩为:
=82(分)。
考试成绩的平均差为:MD=
=8.9(分)。
计算结果表明,该班每名同学的考试成绩与全班平均分数平均相差8.9分。
平均差考虑了总体中各个标志值的变异程度对总体变异程度的影响。但是它在计算过程中通过取绝对值进行运算,不便于进一步的数理推导,在实际应用中受到较大限制。为此,需用更合适的指标计算和反映总体各单位标志值的离散程度。
3 标准差和方差
标准差又称均方根差,是总体中各单位标志值与其算术平均数离差平方的平均数的平方根,通常用σ表示。标准差的意义与平均差基本相同,也是各项离差的平均数。但在数学处理上,标准差是采用平方之后再开方的方法来避免正负抵消。
标准差的平方称为方差,通常用σ2表示。
由于所掌握的资料不同,标准差和方差的计算公式也有简单和加权两种形式。
3.1 简单平均式
如果所掌握的资料未经过分组,需要采用简单平均公式计算标准差和方差。
根据例1资料计算标准差和方差,如表3所示
第一组的标准差和方差:
第二组的标准差和方差:
计算结果说明,虽然两组同学平均考试成绩均为77分,但第二组的标准差(6分)和方差(35.6分)小于第一组的标准差(16分)和方差(256分),所以第一组平均数的代表性小于第二组。
3.2 加权平均式
如果掌握的资料已经过一定的整理、分组,可以采用加权平均公式计算标准差和方差。其计算公式为
根据例1的资料计算标准差和方差,如表4所示
所以σ2和σ也常常运用以下两个公式计算。
标准差是根据全部数据计算的,它反映了每个数据与其平均数相比平均相差的数值,因此能准确地反映出数据的离散程度。与平均差相比,标准差在数学处理上是通过平方消去离差的正负号,更便于处理。因此,标准差是实际中应用最广泛的离散程度测度值。
标准差有总体标准差与样本标准差之分,上面我们说的都是总体的标准差,如果要计算样本标准差,则需要将分母减1。一般我们把样本标准差记为S,所以对简单式而言,S=
对加权式而言,S=
方差是各变量值与其算术平均数离差平方和的平均数,即标准差的平方,用σ2表示总体的标准差,用S2表示样本的标准差,在今后的统计分析中,这些指标我们经常要用到。
4 变异系数
前面我们介绍了极差、平均差、标准差和方差等离散指标,这些指标虽然可以反映一个数列各标志值的离散程度,但属于有计量单位的有名数,其数值的大小与数列中各标志值的水平高低有关。在统计研究中,为了对不同的总体的标志变异程度进行对比分析,往往还需要有测定总体中各单位标志值变异的相对量指标即变异系数,以消除不同总体之间在计量单位、平均水平等方面的不可比因素。变异系数又称为离散系数,是一组数据的标准差与其相应的平均数之比。其计算公式为
根据例1资料计算标准差系数。
虽然各类标志变异指标都能在一定程度上反映总体的离散情况,但在不少情况下,平均差与平均差系数之间、标准差与标准差系数之间并不同步变动,这时用变异系数才能真正揭示总体各单位标志值的离散程度,说明总体平均数代表性的大小。
5 数据的标准化
在计算了算术平均数和标准差之后,我们可以对一组数据中各个数值进行标准化处理,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有异常值。标准化数值是变量值与其平均数的离差除以标准差后的值,也称为Z分数或标准分数
设标准化数值为Z,则有:Z=
或Z=
例3如果有几个学生的考试分数是:99,85,73,60,45,16,计算其标准化数值。
假定已知算术平均数和标准差是:=70.00,S=15.00,而相应的标准化数值是:1.93,1.00,0.20,-0.67,-1.61,-3.60。
标准分数给出了一组数据中各数值的相对位置。例如,99对应的标准分数为1.93,我们就知道该数值高于算术平均数1.93倍标准差。通常一组数据中高于或低于算术平均数三倍标准差的数值是很少的,即在算术平均数加减三个标准差的范围内几乎包含了全部数据。而在三个标准差之外的数据,统计上称为异常值。例如,16对应的标准分数为-3.60,它就可以被认为是一个异常值。
标准化后数据就没有量纲了,但不会改变其在原序列中的位置。在对多个具有不同量纲的变量进行处理时,常常需要对变量数值进行标准化处理。如在多元统计分析中常用的主成分分析就经常要用到数据标准化。
6 是非标志的标准差
在社会经济活动中,常常存在这样的总体,其全部单位由具有某一标志表现的单位和不具有某一标志表现的单位两部分组成。如人口总体按性别只能分为“男性”和“女性”两部分;产品按质量标准分为“合格品”和“不合格品”两部分等。这种将总体划分为“有”与“无”或者“是”与“非”的标志被称为是非标志,也叫交替标志。
是非标志的标志表现只有“是”与“非”两种结果。将其数量化,通常以1代表具有所研究特征的标志值,以0代表不具有所研究特征的标志值。当总体单位数为N时,具有所研究特征标志值的单位数为N1,不具有所研究特征标志值的单位数为N0,N=N1+N0。总体中具有及不具有所研究特征标志值的单位数占全部单位数的比重称为比例,分别以字母P和Q表示。即
总体中具有所研究特征标志值的成数:P=
总体中不具有所研究特征标志值的成数:Q=
由上可知,两个比例之和等于1,即:P+Q=1。
是非标志的平均数、方差及标准差的计算如表5所示。
根据平均数、方差及标准差的意义可得如下公式。是非标志的算术平均数为:P=
是非标志的标准差为:
是非标志的方差为:σ2=PQ
例: 某市税务部门2014年对在本市注册登记的15万户私人企业进行调查,发现有3万户企业存在着偷漏税的情况,偷漏税率达到20%。其是非标志的平均数、标准差、方差计算如下。
平均数:=P=20%,标准差:σ=
=40%,方差:σ2=PQ=0.8×0.2=16%。
7 小结
常用的几种离散趋势的相互比较