当前位置：首页 > article >正文

模糊聚类分析方法：从模糊等价矩阵到动态分类

article 2025/2/19 8:49:51

一、模糊聚类分析的核心思想

在实际工程技术和经济管理问题中，我们常常需要对对象进行分类。例如，根据生物特征对物种分类、根据气候特征对城市分类、根据用户行为对客户群体分类等。传统的聚类分析基于清晰的分类边界，但现实中许多分类问题具有模糊性——类与类之间的界限并不分明。例如，"青年"与"中年"的年龄界限、空气质量等级的划分等。

模糊聚类分析正是为了解决这类模糊分类问题而提出的方法。它通过建立模糊关系矩阵，结合模糊数学理论，将对象的相似性转化为数值化的隶属度，从而实现对模糊类别的动态划分。

二、模糊等价矩阵：分类的数学基础

2.1 模糊等价矩阵的定义

设 $(r_{ij})_{n \times n}$ 是一个 $n$ 阶模糊矩阵，若满足以下三个条件：

自反性： $r_{ii} = 1$ （对角线元素全为1）；
对称性： $r_{ij} = r_{ji}$ （矩阵对称）；
传递性： $\circ R \subseteq R$ （即 $R^2 \leq R$ ）；

则称 $R$ 为模糊等价矩阵。

传递性的直观解释

传递性保证了若 $x_i$ 与 $x_j$ 相似， $x_j$ 与 $x_k$ 相似，则 $x_i$ 与 $x_k$ 必须具有一定程度的相似性。数学上通过模糊矩阵的合成运算来验证：

$R^2 = R \circ R, \quad \text{其中} \quad c_{ij} = \max_{1 \leq k \leq n} \{ r_{ik} \land r_{kj} \}$

若 $R^2 \leq R$ （即所有元素满足 $c_{ij} \leq r_{ij}$ ），则 $R$ 满足传递性。

2.2 模糊等价矩阵的性质

定理：若 $R$ 是模糊等价矩阵，则对任意 $\lambda \in [0,1]$ ，其 $\lambda$ -截矩阵 $R_\lambda$ 是经典等价矩阵（布尔矩阵）。

$\lambda$ -截矩阵的定义

对模糊矩阵 $R$ ，给定阈值 $\lambda$ ，构造布尔矩阵 $R_\lambda$ ：

$a_{ij}^{(\lambda)} = \begin{cases} 1, & r_{ij} \geq \lambda \\ 0, & r_{ij} < \lambda \end{cases}$

动态分类特性

当 $\lambda$ 从 1 逐渐降低到 0 时， $R_\lambda$ 的分类结果从最细（每个对象单独一类）逐步合并为最粗（所有对象归为一类）。这种动态变化过程可以通过聚类图直观展示。

2.3 示例：模糊等价矩阵的聚类过程

例1：设论域 $X = \{x_1, x_2, x_3, x_4, x_5\}$ ，模糊等价矩阵为：

$\begin{pmatrix} 1 & 0.4 & 0.8 & 0.5 & 0.5 \\ 0.4 & 1 & 0.4 & 0.4 & 0.4 \\ 0.8 & 0.4 & 1 & 0.5 & 0.5 \\ 0.5 & 0.4 & 0.5 & 1 & 0.6 \\ 0.5 & 0.4 & 0.5 & 0.6 & 1 \end{pmatrix}$

不同 $\lambda$ 值的分类结果：

$\lambda = 1$ ： ${x_1\}, \{x_2\}, \{x_3\}, \{x_4\}, \{x_5\}$
$\lambda = 0.8$ ： ${x_1, x_3\}, \{x_2\}, \{x_4\}, \{x_5\}$
$\lambda = 0.6$ ： ${x_1, x_3\}, \{x_2\}, \{x_4, x_5\}$
$\lambda = 0.5$ ： ${x_1, x_3, x_4, x_5\}, \{x_2\}$
$\lambda = 0.4$ ： ${x_1, x_2, x_3, x_4, x_5\}$

通过调整 $\lambda$ ，我们可以观察到类别的动态合并过程。

三、模糊相似矩阵：从相似性到等价性

3.1 模糊相似矩阵的定义

在实际问题中，直接构造模糊等价矩阵较为困难。更常见的是先构造模糊相似矩阵，再通过计算其传递闭包得到模糊等价矩阵。

设 $(r_{ij})_{n \times n}$ 是模糊矩阵，若满足：

自反性： $r_{ii} = 1$ ；
对称性： $r_{ij} = r_{ji}$ ；

则称 $R$ 为模糊相似矩阵。

3.2 传递闭包的计算方法

定理：对任意模糊相似矩阵 $R$ ，存在最小自然数 $k$ ，使得 $R^k$ 是模糊等价矩阵，称为 $R$ 的传递闭包，记为 $t (R)$ 。

平方法计算传递闭包

通过迭代计算 $R^2, R^4, R^8, \dots$ 直到 $R^{2^k} = R^{2^{k+1}}$ ，此时 $t(R) = R^{2^k}$ 。

步骤：

计算 $R^2 = R \circ R$ ；
若 $R^2 \neq R$ ，计算 $R^4 = R^2 \circ R^2$ ；
重复直到 $R^{2^k} = R^{2^{k+1}}$ 。

3.3 示例：传递闭包的计算

例2：设模糊相似矩阵为：

$\begin{pmatrix} 1 & 0.1 & 0.2 \\ 0.1 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix}$

计算过程：

计算 $R^2$ ：
$R^2 = R \circ R = \begin{pmatrix} 1 & 0.2 & 0.2 \\ 0.2 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix}$
计算 $R^4 = R^2 \circ R^2$ ，发现 $R^4 = R^2$ ，因此 $t(R) = R^2$ 。

验证 $t (R)$ 满足传递性：
$\circ t(R) = t(R)$

四、模糊聚类分析的一般步骤

4.1 数据标准化

原始数据可能存在量纲差异，需进行标准化处理。常用方法：

平移-标准差变换：
$x_{ij}' = \frac{x_{ij} - \bar{x}_j}{s_j}, \quad \bar{x}_j = \frac{1}{n}\sum_{i=1}^n x_{ij}, \quad s_j = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_{ij}-\bar{x}_j)^2}$
平移-极差变换：
$x_{ij}' = \frac{x_{ij} - \min x_j}{\max x_j - \min x_j}$

4.2 构建模糊相似矩阵

常用相似系数计算方法：

数量积法：
$r_{ij} = \begin{cases} 1, & i = j \\ \frac{1}{M} \sum_{k=1}^m x_{ik} \cdot x_{jk}, & i \neq j \end{cases}$
夹角余弦法：
$r_{ij} = \frac{\left| \sum_{k=1}^m x_{ik}x_{jk} \right|}{\sqrt{\sum_{k=1}^m x_{ik}^2} \sqrt{\sum_{k=1}^m x_{jk}^2}}$
欧氏距离法：
$r_{ij} = 1 - \frac{\sqrt{\sum_{k=1}^m (x_{ik} - x_{jk})^2}}{\max \text{距离}}$