当前位置：首页 > article >正文

SPASS-聚类和判别分析

article 2025/4/2 9:07:58

聚类与判别分析概述

基本概念

聚类分析

聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同，聚类分析可分为对样本的聚类和对变量的聚类两种。

判别分析

判别分析是判别样本所属类型的一种统计方法。

样本间亲疏关系的度量

连续变量的样本间距离常用度量

主要方法有欧氏距离（Euclidean Distance）、欧氏平方距离（Squared Euclidean Distance）、切比雪夫距离（Chebychev Distance）、明可斯基距离（Minkowski Distance）、用户自定义距离（Customize Distance）、Pearson相关系数、夹角余弦（Cosine）等

顺序变量的样本间距离常用度量

常用的有统计量（Chi-square measure）和统计量（Phi-square measure）。

二者区别

不同之处在于，判别分析是在已知研究对象分为若干类型（或组别）并已取得各种类型的一批已知样本的观测量数据的基础上，根据某些准则建立判别式，然后对未知类型的样本进行差别分析。

说明

聚类分析的目的是找到样本中数据的特点，因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。
聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量，则应先对变量进行标准化处理，而后再进行聚类。
变量间的关系度量模型与样本间相类似，只不过一个用矩阵的行进行计算，另一个用矩阵的列进行计算。

二阶聚类

基本概念

二阶聚类（TwoStep Cluster）（也称为两步聚类）是一个探索性的分析工具，为揭示自然的分类或分组而设计，是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法（Hierarchical Algorithms）,目前主要应用到数据挖掘（Data Mining）和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点：