Python 从网页中提取文本内容,进行中文分词和词频统计,并生成词云图进行可视化
完整资料: https://download.csdn.net/download/huanghm88/89879439
""" 实训2 网页爬取与内容可视化 步骤4 基于wordcloud的词云图可视化 """
# 引入 collections 包、 request 包 、 jieba 包
import collections
import requests
import jieba
# 引入词云图绘制的 WordCloud 模块
from wordcloud import WordCloud
# 步骤2 中实现的函数
# 定义函数,以一个字符串, input_string 作为输入,输出一个list,储存了input_string中所有连续的中文字串。
def get_words(input_string) :
words = []
buff = ''
for c in document :
if 0x4e00 <= ord(c) <=0x9fff :
buff = buff + c
elif not buff == '' :
words.append(buff)
buff = ''
if not buff == '' :
words.append(buff)
return words
# 步