当前位置: 首页 > article >正文

SPASS-聚类和判别分析

聚类与判别分析概述

基本概念

聚类分析

        聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种。

 判别分析 

        判别分析是判别样本所属类型的一种统计方法。

样本间亲疏关系的度量

连续变量的样本间距离常用度量

        主要方法有欧氏距离(Euclidean Distance)、欧氏平方距离(Squared Euclidean Distance)、切比雪夫距离(Chebychev Distance)、明可斯基距离(Minkowski Distance)、用户自定义距离(Customize Distance)、Pearson相关系数、夹角余弦(Cosine)等

顺序变量的样本间距离常用度量

        常用的有  统计量(Chi-square measure)和  统计量(Phi-square measure)。

二者区别

        不同之处在于,判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样本进行差别分析。

说明

  • 聚类分析的目的是找到样本中数据的特点,因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。
  • 聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量,则应先对变量进行标准化处理,而后再进行聚类。
  • 变量间的关系度量模型与样本间相类似,只不过一个用矩阵的行进行计算,另一个用矩阵的列进行计算。

二阶聚类

基本概念

        二阶聚类(TwoStep Cluster)(也称为两步聚类)是一个探索性的分析工具,为揭示自然的分类或分组而设计,是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法(Hierarchical Algorithms),目前主要应用到数据挖掘(Data Mining)和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点:

  • 分类变量和连续变量均可以参与二阶聚类分析;
  • 该过程可以自动确定分类数; 可以高效率地分析大数据集;
  • 用户可以自己定制用于运算的内存容量。

统计原理

        两步法的功能非常强大,而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外,为了处理分类变量和连续变量,它用似然距离测度,它要求模型中的变量是独立的,分类变量是多项式分布,连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。

分析步骤

第1步 预聚类:对每个观测变量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。

第2步 正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚算法可用来产生一个结果范围。

 

 

         从中可以看出,此算法采用的是两步(二阶)聚类,共输入3个变量,将所有个案聚成3类。聚类的平均轮廓值为0.6(其范围值为-1.0~1.0,值越大越好),说明聚类质量较好。      

        因此,数据类别打标  


http://www.kler.cn/a/136036.html

相关文章:

  • 深入探究 YOLOv5:从优势到模型导出全方位解析
  • JAVA:Spring Boot 实现责任链模式处理订单流程的技术指南
  • 《安富莱嵌入式周报》第349期:VSCode正式支持Matlab调试,DIY录音室级麦克风,开源流体吊坠,物联网在军工领域的应用,Unicode字符压缩解压
  • AIGC视频生成国产之光:ByteDance的PixelDance模型
  • IDEA中Maven使用的踩坑与最佳实践
  • nuxt3项目打包部署到服务器后配置端口号和开启https
  • iPaaS和RPA,企业自动化应该如何选择?
  • 面试题c/c++ --STL 算法与数据结构
  • 记录--alova组件使用方法(区别axios)
  • Redis学习笔记17:基于spring data redis及lua脚本批处理scan指令查询永久有效的key
  • 赴日开发工程师是做什么的?
  • IDEA调用接口超时,但Postman可成功调用接口
  • leetcode每日一题31
  • 对于koa中间件的理解
  • mysql mvcc介绍
  • 【算法】二分查找-20231121
  • .NET 8.0 AOT 教程 和使用 和 .NET ORM 操作
  • Oracle 11g 多数据库环境下的TDE设置
  • 使用键盘管理器更改键盘快捷键,让键盘真正迎合你的使用习惯
  • 【NGINX--2】高性能负载均衡
  • Django(九、choices参数的使用、多对多表的三种创建方式、Ajax技术)
  • 前端本地存储数据库IndexedDB
  • 计算机是如何工作的(简单介绍)
  • 机器学习二元分类 二元交叉熵 二元分类例子
  • 分布式与微服务 —— 初始
  • 二进制部署k8s集群-过程中的问题总结(接上篇的部署)