当前位置: 首页 > article >正文

用Python实现中文分词

笔记

jieba模块

import jieba
# 读取进来
with open('华为笔记本.txt','r',encoding='utf-8') as file:
    s=file.read()
# print(s)
# 分词
lst=jieba.lcut(s)
# print(lst)

# 去重操作
set1=set(lst) # 使用集合实现去重
#
d={} # key:词,value:出现的次数
for item in set1:
    if len(item)>=2:
        d[item]=0
# print(d)
for item in lst:
    if item in d:
        d[item]=d.get(item)+1
# print(d)
# 字典转列表
new_list=[]
for item in d:
    new_list.append([item,d[item]])
# print(new_list)

# 列表排序
new_list.sort(key=lambda x:x[1],reverse=True)
print(new_list[0:11]) # 显示的是前10项


http://www.kler.cn/news/366734.html

相关文章:

  • 前端处理API接口故障:多接口自动切换的实现方案
  • 低代码平台如何通过AI赋能,实现更智能的业务自动化?
  • Qt之QCamera的简单使用
  • 【SpringCloud】06-Sentinel
  • 纯血鸿蒙的未来前景
  • Python游戏开发超详细第二课/一个小游戏等制作过程(入门级篇共2节)
  • #网络安全#渗透测试# 渗透测试应用
  • centos安装指定版本的jenkins
  • 全WEB端支持H.265,RTSP/RTMP/FLV视频流4k超清播放器方案
  • 三款PDF解密工具,轻松打开加密文档
  • 第11天理解指针
  • Go小技巧易错点100例(十八)
  • [申请] 准备 2024.10.20
  • QT模块--Core
  • Oracle数据库语法的使用
  • envoyFilter导致的webSockets协议无法正常工作
  • Docker Redis集群3主3从模式
  • 网关三问:为什么微服务需要网关?什么是微服务网关?网关怎么选型?
  • 4款免费音频剪辑软件带你开启声音创作之旅
  • 基于SpringBoot的时装购物系统【源码】+【论文】
  • BRIA-RMBG-1.4容器构建指南
  • 2024年最新苹果iOS证书申请创建App详细图文流程
  • Jmeter用户定义变量
  • 2024系统架构师---真题考试知识点
  • 【计算机网络 - 基础问题】每日 3 题(五十八)
  • 数据结构(8.4_1)——简单选择排序