当前位置: 首页 > article >正文

Python 从网页中提取文本内容,进行中文分词和词频统计,并生成词云图进行可视化

完整资料: https://download.csdn.net/download/huanghm88/89879439


"""  实训2 网页爬取与内容可视化  步骤4 基于wordcloud的词云图可视化  """
# 引入 collections 包、 request 包 、 jieba 包
import collections 
import requests 
import jieba
# 引入词云图绘制的 WordCloud 模块
from wordcloud import WordCloud

# 步骤2 中实现的函数
# 定义函数,以一个字符串, input_string 作为输入,输出一个list,储存了input_string中所有连续的中文字串。
def get_words(input_string) :
    words = []
    buff = ''

    for c in document :
        if 0x4e00 <= ord(c) <=0x9fff :
            buff = buff + c
        elif not buff == '' :
            words.append(buff)
            buff = ''

    if not buff == '' :
        words.append(buff)

    return words

# 步

http://www.kler.cn/news/361354.html

相关文章:

  • SERDES高速链路PCB设计的信号完整性考虑
  • Web前端高级工程师培训:使用 Node.js 构建一个 Web 服务端程序(3)
  • linux命令之lvdisplay用法
  • 【不要离开你的舒适圈】:猛兽才希望你落单,亲人总让你回家,4个维度全面构建舒适圈矩阵
  • 关于Deformable Convolution:自我整理一次可变形卷积
  • R语言机器学习算法实战系列(六)K-邻近算法 (K-Nearest Neighbors)
  • 计算机网络教学设计稿
  • 自定义中文排序在Java中的实现与注意事项
  • redis的bitmap实现用户签到天数统计
  • 吃透高并发模型与RPC框架,拿下大厂offer!!!
  • VuePress的基本常识
  • HTML基本语法
  • 【电子元件】光通量和色温 (欧司朗LED灯珠 KW3 CGLNM1.TG命名规则)
  • 本币接口服务
  • 对比学习论文随笔 1:正负样本对(Contrastive Learning 基础论文篇)
  • Maven--架构项目管理工具
  • 基于知识图谱的美食推荐系统
  • 《普通逻辑》学习记录——引论
  • 【880线代】线性代数一刷错题整理
  • 裸指针的六个问题
  • 如何提高 YoloDotNet 图像目标检测的准确率?
  • 双碳目标下储能产业新趋势与架构
  • openssl所有版本源码下载链接
  • KafkaTools 3配置 SASL SSL双重认证
  • 基于单片机优先级的信号状态机设计
  • 一键找出图像中物体的角点(论文复现)