当前位置: 首页 > article >正文

文本分析之关键词提取(TF-IDF算法)

键词提取是自然语言处理中的一个重要步骤,可以帮助我们理解文本的主要内容。TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的关键词提取方法,它基于词频和逆文档频率的概念来确定词语的重要性。

准备工作

首先,我们需要准备一些工具和库,包括 Pandas、jieba(结巴分词)、sklearn 等。

  1. Pandas:用于数据处理。
  2. jieba:用于中文分词。
  3. sklearn:用于实现 TF-IDF 算法。
数据加载与预处理

我们将从多个文本文件中读取数据,并对其进行分词和停用词过滤。

import pandas as pd
import os
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
from sklearn.externals import joblib

# 加载用户词典
jieba.load_userdict(r"红楼梦词库.txt")

# 加载停用词
stopwords = set(pd.read_csv(r"StopwordsCN.txt", encoding='utf8')['stopword'].values.tolist())

# 文件路径和内容列表
filePaths = []
fileContents = []

# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(r"D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\分卷"):
    for name in files:
        filePath = os.path.join(root, name)
        filePaths.append(filePath)
        with open(filePath, 'r', encoding='utf-8') as f:
            fileContent = f.read()
            fileContents.append(fileContent)

# 将文件路径和内容添加到 DataFrame 中
corpos = pd.DataFrame({
    'filePath': filePaths,
    'fileContent': fileContents
})

# 分词并去除停用词
def segment_text(text):
    return ' '.join([seg for seg in jieba.cut(text) if seg not in stopwords])

# 应用分词函数
corpos['segmented'] = corpos['fileContent'].apply(segment_text)

# 将分词结果保存到文件
with open(r'D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\分词后汇总.txt', 'w', encoding='utf-8') as f:
    for segmented_text in corpos['segmented']:
        f.write(segmented_text + '\n')
TF-IDF 算法应用

接下来,我们将使用 TF-IDF 算法来提取关键词。

# 创建 TF-IDF 矢量化器
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=r"(?u)\b\w+\b")

# 训练 TF-IDF 模型
tfidf_matrix = vectorizer.fit_transform(corpos['segmented'])

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 输出 TF-IDF 矩阵
print(tfidf_matrix.toarray())

# 保存 TF-IDF 模型
joblib.dump(vectorizer, r"D:\PyCharm\PyCharmProjects\python_class\机器学习\10.TF-IDF\项目3\红楼梦\tfidf_model.pkl")
关键词提取

最后,我们可以从 TF-IDF 矩阵中提取出关键词。

def extract_keywords(tfidf_matrix, feature_names, top_n=10):
    # 获取每篇文档的 TF-IDF 值
    doc_ids = range(len(corpos))
    for i in doc_ids:
        # 获取每篇文档的 TF-IDF 值
        tfidf_scores = zip(feature_names, tfidf_matrix[i].toarray()[0])
        
        # 排序并获取前 N 个关键词
        sorted_tfidf_scores = sorted(tfidf_scores, key=lambda x: x[1], reverse=True)
        top_keywords = [term for term, score in sorted_tfidf_scores[:top_n]]
        
        yield top_keywords

# 打印每篇文档的前 10 个关键词
for keywords in extract_keywords(tfidf_matrix, feature_names):
    print(keywords)

总结

通过以上步骤,我们成功地实现了从《红楼梦》分卷文本中提取关键词的功能。TF-IDF 算法结合中文分词和停用词过滤技术,能够有效地识别出文本中的重要词汇,这对于文本摘要、信息检索和文档分类等任务非常有用。


http://www.kler.cn/a/282422.html

相关文章:

  • 微信小程序设置屏幕安全距离
  • 低代码平台:跨数据库处理的重要性与实现方式
  • 力扣刷题日记之150.逆波兰表达式求值
  • 【目标检测】用YOLOv8-Segment训练语义分割数据集(保姆级教学)
  • EXCEL 或 WPS 列下划线转驼峰
  • 阿里云ACK容器如何配置pod分散在集群的不同节点上
  • 行为型设计模式-模板方法(template method)模式
  • 数据结构(邓俊辉)学习笔记】串 17——Karp-Rabin算法:散列
  • 数据结构:栈、队列详解篇
  • Java 集合之List
  • C++ STL adjacent_find 用法与实现
  • VMware16安装包+详细安装教程
  • 虚拟机Ubuntu误操作导致无法自动联网的解决办法
  • (第三十七天)
  • Unity(2022.3.41LTS) - 着色器
  • 【自由能系列(初级)】大脑功能与贝叶斯计算——深层生成模型的自由能原理
  • junit格式报告解析工具
  • shell脚本-采集容器内自定义端口tcp连接数并通过http接口推送到Prometheus
  • Ruby 多线程
  • UTONMOS:探索未来游戏的元宇宙纪元新篇章
  • 微知-nandflash和norflash名字为什么叫nand和nor?主要区别是什么?
  • js | XMLHttpRequest
  • 【QT | 开发环境搭建】Linux系统(Ubuntu 18.04) 安装 QT 5.12.12 开发环境
  • MyBatis 源码解析:Environment 与 DataSource 配置实现
  • 【网络安全】服务基础第一阶段——第五节:Windows系统管理基础---- DHCP部署与安全
  • 您应该让 ChatGPT 控制您的浏览器吗?