当前位置：首页 > article >正文

用LDA主题模型并进行可视化

article 2025/2/21 3:15:33

以下是一个使用Python中Gensim库实现LDA主题模型并进行可视化的代码示例：
这段代码实现了一个简单的LDA主题模型构建和可视化的过程。

方法2

首先，使用Pandas库中的read_excel()函数读取一个Excel文件data.xlsx作为数据源，然后选取其中一个名为“text”的列作为输入文本。

接着，对文本数据进行预处理，包括将所有单词转成小写、去除常见停用词等。

然后，使用Gensim库中的corpora.Dictionary()函数将文本语料库中所有单词映射到它们的整数ID，然后使用corpus变量把文档转化为词袋模型（Bag-of-Words Model）。

通过Gensim库中的models.LdaModel()函数，我们使用构建好的文本语料库训练一个LDA主题模型，该模型包括了5个主题(default)。在此之后，可以使用pyLDAvis库中的prepare()函数，结合前面准备好的lda_model、corpus和dictionary，生成一个交互式的主题模型可视化效果。最后，将可视化结果保存为HTML文件。

最后，我们使用pyLDAvis.display(vis)将输出的可视化结果在notebook中直接显示，并且使用pyLDAvis.save_html将可视化结果导出为一个单独的HTML格式的文件。

# 导入必要的库
import pandas as pd
from gensim import corpora, models
import pyLDAvis.gensim_models as gensimvis
import pyLDAvis

# 加载数据，并进行预处理
df = pd.read_excel('data.xlsx')
documents = df['text'].values.tolist()
stopwords = set('the and of a an to in'.split())

# 构建文本语料库
texts = [[word for word in document.lower().split() if word not in stopwords] for document in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# 构建LDA主题模型
num_topics = 5
lda_model = models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=num_topics)

# 可视化主题模型
vis = gensimvis.prepare(lda_model, corpus, dictionary)
pyLDAvis.display(vis)
pyLDAvis.save_html(vis, 'lda_visualization.html')

这个代码需要读取一个名为data.csv的CSV文件，其中包含要建模的文本，其中text列包含文本数据。在代码执行后，将会显示一个交互式的可视化LDA主题模型，该模型显示了主题单词的刻面表示以及通过互动，您可以查看不同主题之间的关系和权重。

方法2

以下是一个简单的LDA主题模型的Python代码，使用gensim库实现。代码读取一个.xlsx格式的文件，使用数据中的文本内容进行主题建模，最后将结果可视化为HTML文件。
复制代码# 导入所需库

import pandas as pd
import gensim
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis

# 读取数据
data = pd.read_excel('data.xlsx', engine='openpyxl')
data_text = data['text'].astype(str)

# 分词处理
def preprocess(text):
    return [token for token in simple_preprocess(text) if len(token) > 2]

data_words = data_text.apply(preprocess)

# 构建词典
id2word = gensim.corpora.Dictionary(data_words)

# 构建语料库
corpus = [id2word.doc2bow(text) for text in data_words]

# 训练LDA模型
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=id2word, num_topics=10, random_state=100, update_every=1, chunksize=100, passes=10, alpha='auto', eta='auto', per_word_topics=True)

# 可视化LDA模型结果
gensimvis.enable_notebook()
vis_data = gensimvis.prepare(lda_model, corpus, id2word, sort_topics=False)
pyLDAvis.save_html(vis_data, 'lda.html')