当前位置: 首页 > article >正文

文本数据分析-(TF-IDF)(2)

文章目录

  • 一、TF-IDF与jieba库介绍
    • 1.TF-IDF概述
    • 2.jieba库概述
  • 二、TF-IDF与jieba库的结合
    • 1.结合
    • 2.提取步骤
  • 三,代码实现
    • 1.导入必要的库
    • 读取文件:
    • 3.将文件路径和内容存储到DataFrame
    • 4.加载自定义词典和停用词
    • 5.分词并去除停用词

TF-IDF(Term Frequency-Inverse Document Frequency)与jieba库在文本处理领域有着紧密的联系,尤其是在中文文本分析中。

一、TF-IDF与jieba库介绍

1.TF-IDF概述

TF-IDF是一种统计方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它通过结合词频(TF)和逆文档频率(IDF)两个因素来计算词语的权重。词频(TF)表示某个词在文档中出现的频率,逆文档频率(IDF)则度量了该词在整个文本集合中的重要性。TF-IDF值越高,表示该词在文档中的重要性越大,越能代表文档的主题。

2.jieba库概述

jieba库是一个流行的中文分词库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。除了分词功能外,jieba库还提供了词性标注、关键词提取、添加自定义词典等丰富的功能。其中,关键词提取功能就是基于TF-IDF算法实现的。

二、TF-IDF与jieba库的结合

1.结合

在jieba库中,TF-IDF算法被用于关键词提取。jieba提供了jieba.analyse.extract_tags函数,该函数通过计算文本中每个词的TF-IDF值,并按降序排列,从而提取出最重要的关键词。用户可以通过设置参数来控制返回的关键词数量和是否返回关键词的权重值。
此外,jieba库还支持自定义IDF频率文件,允许用户根据自己的需求调整IDF的计算方式。这为用户提供了更大的灵活性,以适应不同的文本分析场景。

2.提取步骤

使用jieba库进行TF-IDF关键词提取的步骤
安装jieba库:在Python环境中使用pip安装jieba库,例如pip install jieba。
导入jieba库:在Python脚本中导入jieba库,例如import jieba.analyse。
准备文本:准备要提取关键词的文本。
提取关键词:使用jieba.analyse.extract_tags函数提取关键词。
输出结果:根据需求输出关键词列表或带权重的关键词列表。

三,代码实现

1.导入必要的库

import pandas as pd
import os
import jieba
  • pandas:用于数据处理和分析。
  • os:用于与操作系统交互,如遍历目录和文件。
  • jieba:一个流行的中文分词库。

读取文件:

filePaths = []
fileContents = []
for root, dirs, files in os.walk(r"./红楼梦/分卷"):
    for name in files:
        filePath = os.path.join(root, name)  # 获取每个分卷的路径
        print(filePath)
        filePaths.append(filePath)  # 卷文件路径添加刀列表filePaths中
        f = open(filePath, 'r', encoding='utf-8')
        fileContent = f.read() # 读取每一卷中文件的内容
        f.close()
        fileContents.append(fileContent)
  • 遍历列表:使用os.walk遍历指定目录下的所有文件和子目录。
  • 获取内容:对于每个文件,获取其完整路径(filePath),并读取文件内容(fileContent)。
  • 添加文件内容:将文件路径和内容分别添加到两个列表(filePaths和fileContents)中。

3.将文件路径和内容存储到DataFrame

corpos = pd.DataFrame({   # 将文件内容添加到DataFrame框架
    'filePath': filePaths,
    'fileContent': fileContents
})
  • 使用pandas.DataFrame创建一个新的DataFrame(corpos),其中包含两列:filePath和fileContent。这使得后续的数据处理(如分词和去除停用词)可以更方便地通过行迭代进行。

4.加载自定义词典和停用词

jieba.load_userdict(r"./红楼梦/红楼梦词库.txt")
stopwords = pd.read_csv(r"./红楼梦/StopwordsCN.txt",
                        encoding='utf-8', engine='python', index_col=False)
  • 使用jieba.load_userdict加载自定义的《红楼梦》词库,以提高分词的准确性。
  • 使用pandas.read_csv读取停用词列表,并存储在stopwords中。注意,这里StopwordsCN.txt文件中有一个名为stopword的列,包含了所有的停用词。

5.分词并去除停用词

file_to_jieba = open(r"./红楼梦/分词后汇总.txt", 'w', encoding='utf-8')
for index, row in corpos.iterrows():
    juan_ci = ''
    filePath = row['filePath']
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent) # 对文本内容进行分词,返回一个可遍历的迭代器
    for seg in segs:
        if seg not in stopwords.stopword.values and len(seg.strip()) > 0: # 剔除停用词和字符为0的内容
            juan_ci += seg + ' '
    file_to_jieba.write(juan_ci + '\n')
file_to_jieba.close()

  • 分词:遍历corpos的每一行,对每行的fileContent进行分词。对于分词结果中的每个词,检查它是否不在停用词列表中,并且不是空字符串。如果满足条件,则将该词添加到juan_ci字符串中,并在词之间添加空格作为分隔符。
  • 保存结果:将每个文件处理后的文本写入到新的文件中,每个文件的处理结果占一行。

http://www.kler.cn/a/289874.html

相关文章:

  • 宗馥莉的接班挑战:内斗升级,竞品“偷家”
  • Java 责任链模式 减少 if else 实战案例
  • HTTP常见的状态码有哪些,都代表什么意思
  • FFmpeg 4.3 音视频-多路H265监控录放C++开发十三:将AVFrame转换成AVPacket。视频编码原理.编码相关api
  • Autosar CP DDS规范导读
  • ubuntu cmake CPack将第三方库进行打包
  • 初识redis:学习Java客户端
  • 深度学习实用方法 - 调试策略篇
  • 9 月 7-8 日,Rust China Conf 2024 来啦!
  • TPH-YOLOv5:基于Transformer预测头的改进YOLOv5,用于无人机捕获场景的目标检测
  • 华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp
  • 每天一个数据分析题(五百一十八)- Skip-Gram模型
  • python自动化操作PDF,拆分pdf合并pdf,提取pdf内容
  • 张江创新券的一些介绍
  • 搜维尔科技:数据手套+机械手遥操作,五指触感灵巧手解决方案!
  • selenium无法定位元素的几种解决方案
  • 基于Bert-base-chinese训练多分类文本模型(代码详解)
  • 智能网关:连接物理世界与数字世界的桥梁
  • Qt QLineEdit 输入内容后字数在右侧动态展示
  • AWS SES服务 Golang接入教程(排坑版)
  • ubuntu20.04安装k8sv1.26完整篇
  • Source-code-of-charging-云快充协议1.5+互联互通协议+新能源汽车充电桩系统
  • 基于mediamtx+ffmpeg实现视频推流,基于python-deffcode实现视频拉流
  • 在Vision Pro上实现360度全景视频播放:HLS360VideoMaterial框架介绍
  • Python 在网络运维方面的自动化应用实例
  • sqlserver 如何收缩+最大化压缩数据库