当前位置: 首页 > article >正文

【自然语言处理(NLP)】jieba分词的使用(分词模式、关键词提取)

文章目录

  • 介绍
  • jieba分词的使用
    • 1. 安装
    • 2. jieba分词模式
      • 2.1 精确模式
      • 2.2 全模式
      • 2.3 搜索引擎模式
      • 2.4 词性标注
      • 2.5 加载自己的分词文件
    • 3. 查看词频
    • 4. 关键词提取

个人主页:道友老李
欢迎加入社区:道友老李的学习社区

介绍

**自然语言处理(Natural Language Processing,NLP)**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类(自然)语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言,并且能够以有意义的方式回应和操作这些信息。

NLP的任务可以分为多个层次,包括但不限于:

  1. 词法分析:将文本分解成单词或标记(token),并识别它们的词性(如名词、动词等)。
  2. 句法分析:分析句子结构,理解句子中词语的关系,比如主语、谓语、宾语等。
  3. 语义分析:试图理解句子的实际含义,超越字面意义,捕捉隐含的信息。
  4. 语用分析:考虑上下文和对话背景,理解话语在特定情境下的使用目的。
  5. 情感分析:检测文本中表达的情感倾向,例如正面、负面或中立。
  6. 机器翻译:将一种自然语言转换为另一种自然语言。
  7. 问答系统:构建可以回答用户问题的系统。
  8. 文本摘要:从大量文本中提取关键信息,生成简短的摘要。
  9. 命名实体识别(NER):识别文本中提到的特定实体,如人名、地名、组织名等。
  10. 语音识别:将人类的语音转换为计算机可读的文字格式。

NLP技术的发展依赖于算法的进步、计算能力的提升以及大规模标注数据集的可用性。近年来,深度学习方法,特别是基于神经网络的语言模型,如BERT、GPT系列等,在许多NLP任务上取得了显著的成功。随着技术的进步,NLP正在被应用到越来越多的领域,包括客户服务、智能搜索、内容推荐、医疗健康等。

jieba分词的使用

1. 安装

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

导入

import jieba

查看路径

jieba.__path__

在这里插入图片描述

2. jieba分词模式

  • 精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
  • 全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
  • paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
  • 搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search
text = '我爱中华人民共和国'

2.1 精确模式

注意精确模式返回的是生成器

gen = jieba.cut(text)

next(gen)

返回

'我'
for word in gen:
    print(word)

返回

我
爱
中华人民共和国

转化为列表

list(gen)

返回

['我', '爱', '中华人民共和国']

或者使用lcut l=list 返回的就是列表了

words = jieba.lcut(text)
words
['我', '爱', '中华人民共和国']

2.2 全模式

cut_all=True

jieba.lcut(text, cut_all=True)
['我', '爱', '中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国']

2.3 搜索引擎模式

jieba.lcut_for_search(text)
['我', '爱', '中华', '华人', '人民', '共和', '共和国', '中华人民共和国']

2.4 词性标注

from jieba import posseg

posseg.lcut(text)
[pair('我', 'r'), pair('爱', 'v'), pair('中华人民共和国', 'ns')]

另一个示例

text = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向'
jieba.lcut(text)

返回

['自然语言',
 '处理',
 '是',
 '计算机科学',
 '领域',
 '与',
 '人工智能',
 '领域',
 '中',
 '的',
 '一个',
 '重要',
 '方向']

临时加一个词

jieba.add_word('机器学习')

对词频进行调整

jieba.suggest_freq('机器学习')
  • 对词频进行调整后,需要重新加载词典,才能使调整生效。
  • 频繁调整词频可能会对分词的准确性产生影响,使用时要谨慎。

2.5 加载自己的分词文件

jieba.load_userdict('D:\.venv\Lib\site-packages\jieba\dict2.txt')

3. 查看词频

  1. 对文本进行分词处理。
  2. 统计每个词语出现的频次。

示例代码:

import jieba
from collections import Counter

# 待分词的文本
text = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向"
# 进行分词
words = jieba.lcut(text)
# 统计词频
word_freq = Counter(words)
# 查看词频
for word, freq in word_freq.items():
    print(f"{word}: {freq}")

在这里插入图片描述

4. 关键词提取

from jieba import analyse

text = 'NLP技术的发展依赖于算法的进步、计算能力的提升以及大规模标注数据集的可用性。近年来,深度学习方法,特别是基于神经网络的语言模型,如BERT、GPT系列等,在许多NLP任务上取得了显著的成功。随着技术的进步,NLP正在被应用到越来越多的领域,包括客户服务、智能搜索、内容推荐、医疗健康等。'

提取关键词, 其实就是根据tfidf算出来的值

analyse.extract_tags(text, topK=10, withWeight=True)
# 或
analyse.tfidf(text, topK=10, withWeight=True)

在这里插入图片描述

在分词的同时,返回词语的位置信息

jieba.tokenize(sentence, mode='default', HMM=True)

参数

  • sentence:这是一个必需的参数,代表要进行分词的字符串。
  • mode:该参数有两种可选模式。‘default’ 为默认模式,它采用精确模式进行分词;‘search’ 是搜索引擎模式,这种模式会对长词进行进一步切分,以适合搜索引擎的需求。
  • HMM:这是一个布尔类型的参数,默认值为 True。它表示是否使用隐马尔可夫模型(HMM)来识别未登录词。

返回值
该方法会返回一个生成器,生成的每个元素是一个包含三个元素的元组,具体如下:

  • 第一个元素为分词后的词语。
  • 第二个元素是该词语在原句子中的起始位置。
  • 第三个元素是该词语在原句子中的结束位置。

示例代码

gen = jieba.tokenize(text)

for g in gen:
    print(g)
('NLP', 0, 3)
('技术', 3, 5)
('的', 5, 6)
('发展', 6, 8)
('依赖于', 8, 11)
('算法', 11, 13)
('的', 13, 14)
('进步', 14, 16)
('、', 16, 17)
('计算能力', 17, 21)
('的', 21, 22)
('提升', 22, 24)
('以及', 24, 26)
('大规模', 26, 29)
('标注', 29, 31)
('数据', 31, 33)
('集', 33, 34)
('的', 34, 35)
('可用性', 35, 38)
('。', 38, 39)
('近年来', 39, 42)
(',', 42, 43)
('深度', 43, 45)
('学习', 45, 47)
('方法', 47, 49)
(',', 49, 50)
('特别', 50, 52)
('是', 52, 53)
('基于', 53, 55)
('神经网络', 55, 59)
('的', 59, 60)
('语言', 60, 62)
('模型', 62, 64)
(',', 64, 65)
('如', 65, 66)
('BERT', 66, 70)
('、', 70, 71)
('GPT', 71, 74)
('系列', 74, 76)
('等', 76, 77)
(',', 77, 78)
('在', 78, 79)
('许多', 79, 81)
('NLP', 81, 84)
('任务', 84, 86)
('上', 86, 87)
('取得', 87, 89)
('了', 89, 90)
('显著', 90, 92)
('的', 92, 93)
('成功', 93, 95)
('。', 95, 96)
('随着', 96, 98)
('技术', 98, 100)
('的', 100, 101)
('进步', 101, 103)
(',', 103, 104)
('NLP', 104, 107)
('正在', 107, 109)
('被', 109, 110)
('应用', 110, 112)
('到', 112, 113)
('越来越', 113, 116)
('多', 116, 117)
('的', 117, 118)
('领域', 118, 120)
(',', 120, 121)
('包括', 121, 123)
('客户服务', 123, 127)
('、', 127, 128)
('智能', 128, 130)
('搜索', 130, 132)
('、', 132, 133)
('内容', 133, 135)
('推荐', 135, 137)
('、', 137, 138)
('医疗', 138, 140)
('健康', 140, 142)
('等', 142, 143)

注意事项

  • 该方法返回的是生成器,若要多次使用结果,可将生成器转换为列表。
  • 位置信息是基于字符的,即起始和结束位置是字符的索引。

http://www.kler.cn/a/519083.html

相关文章:

  • RabbitMQ模块新增消息转换器
  • docker部署jenkins
  • 【图文详解】lnmp架构搭建Discuz论坛
  • 16.好数python解法——2024年省赛蓝桥杯真题
  • 阿里云-银行核心系统转型之业务建模与技术建模
  • ChatGPT高效处理图片技巧使用详解
  • 【BQ3568HM开发板】深入解析智能家居中控屏工程的NAPI接口设计
  • 视觉语言模型 (VLMs):跨模态智能的探索
  • [ACTF2020 新生赛]BackupFile1
  • 【Redis】在ubuntu上安装Redis
  • 每天五分钟深度学习框架pytorch:搭建谷歌的Inception网络模块
  • Elastic Agent 对 Kafka 的新输出:数据收集和流式传输的无限可能性
  • CSS(二)——选择器
  • 个人网站搭建
  • 基于Flask的北京房屋租赁管理系统的设计与实现
  • 从管道符到Java编程
  • Linux 常用命令——网络篇(保姆级说明)
  • jira.issueviews
  • 把Eclipse转为AndroidStudio2024.1工程android源码转换过程 解决示例:android蓝牙串口助手
  • C++11线程
  • 超分辨率体积重建实现术前前列腺MRI和大病理切片组织病理学图像的3D配准
  • 【网络编程】Java高并发IO模型深度指南:BIO、NIO、AIO核心解析与实战选型
  • 【技术】TensorRT 10.7 安装指南(Ubuntu22.04)
  • Unity git版本管理
  • react面试题二
  • 人工智能在教育领域的创新应用与前景展望