当前位置：首页 > article >正文

自然语言处理：k均值聚类算法

article 2025/3/10 0:09:07

介绍

大家好，博主又来和大家分享自然语言处理领域的知识了。按照博主的分享规划，本次分享的核心主题本应是自然语言处理中的文本聚类。然而，在对分享内容进行细致梳理时，我察觉到其中包含几个至关重要的知识点，即 k 均值聚类算法、高斯混合模型、最大期望值算法以及无监督朴素贝叶斯模型。这几个知识点在自然语言处理的知识体系中占据着关键地位。

k均值聚类算法作为经典的聚类算法，通过迭代优化不断调整聚类中心，实现文本的高效聚类。
高斯混合模型从概率分布的角度出发，为文本数据的聚类分析提供了独特的视角。
最大期望值算法常作为优化工具，在高斯混合模型等算法中发挥作用，帮助准确估计模型参数，提升聚类效果。
无监督朴素贝叶斯模型则基于贝叶斯理论，在无类别标签数据的处理中展现出独特优势，能够挖掘文本数据潜在的分类信息，辅助文本聚类工作。

它们不仅是理解文本聚类算法的核心基础，对于理解其他机器学习和自然语言处理算法也有着重要意义，并且在文本分类、信息检索、数据挖掘、主题模型构建等众多实际应用场景中都发挥着不可或缺的作用。

因此，博主经过审慎思考，决定将k均值聚类算法、高斯混合模型、最大期望值算法以及无监督朴素贝叶斯模型这几个知识点单独提取出来，进行专门的讲解。这样做旨在为大家构建一个更为清晰、系统的知识框架，使大家能够深入理解这些基础知识点的原理、应用场景及优势。那么，话不多说，我们直接进入正题。

k均值聚类算法

在自然语言处理(NLP)领域，对大量文本数据进行有效的组织和分析是一项重要任务。k均值聚类算法(k-Means Clustering Algorithm)作为一种经典的无监督学习算法，在文本聚类、主题模型挖掘等方面发挥着关键作用。

基础概念

聚类概念

聚类是指将物理或抽象对象的集合分组为由类似对象组成的多个类的分析过程。在自然语言处理中，就是把文本数据按照相似性分成不同的簇，使得同一簇内的文本相似度较高，而不同簇之间的文本相似度较低。例如，将新闻文章聚类，把体育新闻归为一类，科技新闻归为另一类等。

核心思想

k均值聚类算法的目标是将 $n$ 个数据点划分为 $k$ 个簇，使得每个数据点都属于离它最近的均值(聚类中心)对应的簇，以最小化各个数据点与其对应聚类中心之间的误差平方和。这里的“ $k$ ”代表预先设定的簇的数量。

用数学公式表示，误差平方和(SSE，Sum of Squared Errors)为目标函数：

$J = \sum_{i = 1}^{k}\sum_{x_j \in C_i} \left \| x_j - \mu_i \right \|^2$

其中， $J$ 是误差平方和； $k$ 是簇的数量； $C_i$ 表示第$i$个簇； $x_j$ 是第 $j$ 个数据点； $\mu_i$ 是第 $i$ 个簇的聚类中心； $\left \| x_j - \mu_i \right \|^2$ 表示数据点 $x_j$ 到聚类中心 $\mu_i$ 的距离的平方，通常使用欧氏距离，即对于向量 $x_j=(x_{j1},x_{j2},\cdots,x_{jn})$ 和 $\mu_i=(\mu_{i1},\mu_{i2},\cdots,\mu_{in})$ ，有

$\left \| x_j - \mu_i \right \|^2=\sum_{m = 1}^{n}(x_{jm}-\mu_{im})^2$

例如，假设有一批关于水果、动物和交通工具的文本，设定 $k = 3$ ，算法会尝试把描述水果的文本聚成一个簇，描述动物的文本聚成一个簇，描述交通工具的文本聚成一个簇，通过不断调整聚类中心，使上述目标函数 $J$ 的值最小。

距离度量

在k均值聚类算法中，需要一种方式来衡量数据点之间的相似程度，常用的距离度量方法是欧氏距离。对于两个n维向量X=(x1,x2,...,xn)和Y=(y1,y2,...,yn)，它们之间的欧氏距离公式为：

$d(X,Y)=\sqrt{\sum_{i = 1}^{n}(x_{i}-y_{i})^{2}}$

在文本处理中，会将文本转化为向量形式，然后使用这种距离度量来计算文本之间的相似度。

k均值聚类算法流程

初始化聚类中心

随机选择 $k$ 个数据点作为初始的聚类中心。这些初始聚类中心的选择会影响最终的聚类结果，不同的初始选择可能导致不同的聚类效果。

分配数据点到簇

计算每个数据点到各个聚类中心的距离，将每个数据点分配到距离它最近的聚类中心所在的簇。使用欧氏距离公式计算距离，即数据点 $x_j$ 到聚类中心 $\mu_i$ 的距离为 $d(x_j,\mu_i)=\sqrt{\sum_{m = 1}^{n}(x_{jm}-\mu_{im})^2}$ ，将 $x_j$ 分配到距离最小的那个聚类中心对应的簇。

分配数据点到簇

计算每个簇中数据点的均值，将这个均值作为新的聚类中心。对于第 $i$ 个簇 $C_i$ ，其新的聚类中心 $\mu_i$ 的计算公式为：

$\mu_i = \frac{1}{|C_i|}\sum_{x_j \in C_i}x_j$

其中， $|C_i|$ 表示第 $i$ 个簇中的数据点数量。如果新的聚类中心和上一次的聚类中心相同，或者变化非常小，算法就达到了收敛条件，停止迭代；否则，返回第2步(分配数据点到簇)继续迭代。

代码实现

下面我们将使用Python代码来展示如何运用k均值聚类算法对文本数据进行聚类分析。我们借助Python中的jieba库进行中文分词，sklearn库中的KMeans和TfidfVectorizer完成聚类和文本向量化操作。

在运行下列代码前，我们需要安装jieba库，安装命令为：

pip install jieba

注：jieba库是Python中用于中文文本处理的重要工具，主要功能是中文分词，即将连续的中文文本切分成一个个独立的词语。

完整代码

# 导入 os 库，用于设置环境变量
import os
# 导入jieba库，用于中文文本分词
import jieba
# 从sklearn.cluster模块导入KMeans类，用于文本聚类
from sklearn.cluster import KMeans
# 从sklearn.feature_extraction.text模块导入TfidfVectorizer类，用于将文本转换为TF-IDF向量
from sklearn.feature_extraction.text import TfidfVectorizer

# 设置环境变量，避免joblib并行处理时检测物理核心数量的警告
os.environ['LOKY_MAX_CPU_COUNT'] = '4'


# 定义NLPTextClustering类，封装文本聚类的相关操作
class NLPTextClustering:
    # 类的构造函数，此处不做初始化操作
    def __init__(self):
        pass

    # 定义文本预处理方法，对输入的文本列表进行分词处理
    def preprocess_texts(self, texts):
        """
        对输入的文本进行预处理，主要是分词
        :param texts: 输入的文本列表
        :return: 分词后的文本列表
        """
        # 初始化一个空列表，用于存储分词后的文本
        processed_texts = []
        # 遍历输入的文本列表
        for text in texts:
            # 使用jieba进行分词
            words = jieba.lcut(text)
            # 将分词结果用空格连接成字符串，并添加到processed_texts列表中
            processed_texts.append(" ".join(words))
        # 返回分词后的文本列表
        return processed_texts

    # 定义文本聚类方法，对输入的文本进行聚类分析
    def text_clustering(self, texts, k=3):
        try:
            # 调用preprocess_texts方法对输入的文本进行预处理
            processed_texts = self.preprocess_texts(texts)

            # 创建TfidfVectorizer对象，用于将文本转换为TF-IDF向量
            vectorizer = TfidfVectorizer()
            # 对预处理后的文本进行拟合和转换，得到TF-IDF向量矩阵
            X = vectorizer.fit_transform(processed_texts)

            # 创建KMeans模型，设置聚类数量为k，最大迭代次数为300，初始化次数为10，使用k-means++方法初始化
            kmeans = KMeans(n_clusters=k, max_iter=300, n_init=10, init='k-means++')
            # 使用TF-IDF向量矩阵训练KMeans模型
            kmeans.fit(X)
            # 获取每个文本的聚类标签
            labels = kmeans.labels_

            # 遍历每个文本，输出文本内容及其对应的聚类标签
            for i in range(len(texts)):
                print(f"文本: {texts[i]}, 簇标签: {labels[i]}")

            # 对聚类中心的特征值进行降序排序，得到排序后的索引
            order_centroids = kmeans.cluster_centers_.argsort()[:, ::-1]
            # 获取TF-IDF向量的特征名称
            terms = vectorizer.get_feature_names_out()
            # 遍历每个簇
            for i in range(k):
                # 输出当前簇的编号
                print(f"\n簇 {i} 的关键词:")
                # 获取当前簇中TF-IDF值最高的前10个特征的索引
                top_terms = [terms[ind] for ind in order_centroids[i, :10]]
                # 将前10个特征用逗号连接成字符串并输出
                print(", ".join(top_terms))

        # 捕获聚类过程中可能出现的异常
        except Exception as e:
            # 输出异常信息
            print(f"聚类过程中出现错误: {e}")


# 主程序入口
if __name__ == "__main__":
    # 定义一个包含多个中文文本的列表，作为示例输入
    texts = ["苹果是一种水果，味道甜美", "香蕉也是水果，富含营养", "狗是人类的好朋友，很忠诚", "猫喜欢睡觉，非常可爱",
             "汽车是常见的交通工具，方便出行", "飞机可以快速到达远方"]
    # 创建类的实例
    nlp_text_clustering = NLPTextClustering()
    # 调用方法对文本进行聚类分析
    nlp_text_clustering.text_clustering(texts, k=3)

运行结果

文本: 苹果是一种水果，味道甜美, 簇标签: 1
文本: 香蕉也是水果，富含营养, 簇标签: 1
文本: 狗是人类的好朋友，很忠诚, 簇标签: 0
文本: 猫喜欢睡觉，非常可爱, 簇标签: 0
文本: 汽车是常见的交通工具，方便出行, 簇标签: 0
文本: 飞机可以快速到达远方, 簇标签: 2

簇 0 的关键词:
朋友, 忠诚, 人类, 睡觉, 可爱, 喜欢, 非常, 出行, 汽车, 交通工具

簇 1 的关键词:
水果, 营养, 香蕉, 富含, 苹果, 味道, 一种, 甜美, 飞机, 汽车

簇 2 的关键词:
飞机, 远方, 可以, 到达, 快速, 苹果, 香蕉, 非常, 营养, 汽车

进程已结束，退出代码为 0

在这段代码中，首先导入了需要的库，包括用于数值计算的numpy，用于k均值聚类的KMeans，以及用于将文本转化为TF-IDF向量的TfidfVectorizer。然后准备了文本数据，使用TfidfVectorizer将文本数据转化为数值向量。接着创建KMeans对象，设置簇的数量为 3，进行聚类操作并得到每个文本的簇标签。最后输出每个文本及其对应的簇标签。

总体而言，这段代码构建了一个完整的中文文本聚类分析流程，从文本预处理到特征提取，再到聚类和结果展示，为处理中文文本数据提供了一种实用且有效的解决方案。

算法优点

简单高效：k均值聚类算法原理简单，易于理解和实现，计算复杂度相对较低，在处理大规模文本数据时能够快速得到聚类结果。
可解释性强：聚类结果直观，每个簇都有明确的聚类中心，可以通过分析聚类中心和簇内文本的特征来理解每个簇的含义，方便对文本数据进行组织和分析。
广泛应用：在自然语言处理的多个领域，如文本分类的预处理、主题模型挖掘、信息检索等，都有广泛的应用，能够有效地帮助处理和分析文本数据。

算法缺点

对k值敏感：k值(簇的数量)需要预先设定，不同的k值可能导致完全不同的聚类结果，但在实际应用中，很难确定一个最优的k值。如果k值选择不当，可能会导致聚类效果不佳。
对初始聚类中心敏感：初始聚类中心的选择是随机的，不同的初始选择可能会使算法收敛到不同的局部最优解，从而影响最终的聚类质量。
不适用于非凸形状的数据分布：k均值聚类算法假设数据分布是球形的，对于非凸形状的数据分布，聚类效果可能不理想，无法准确地划分数据。