python词云库wordCloud使用方法详解(解决中文乱码)

2023-08-01 09:32:04 456

文章中的例子主要借鉴wordColud的examples，在文章对examples中的例子做了一些改动。

一、wordColud设计中文词云乱码

使用wordColud设计词云的时候可能会产生乱码问题，因为wordColud默认的字体不支持中文，所以我们只需要替换wordColud的默认字体即可正常显示中文。

1、中文词云乱码

我们使用simhei(黑体)来替换wordColud的默认字体。

2、替换默认字体

a、在字体文件*.tff字体文件(simhei.tff)拷贝到wordColud安装的文件夹中，文件夹路径：anaconda(python)-->lib-->site-packages-->wordcolud，如下图：

其中矩形框出来的是wordColud默认的字体，椭圆形框的是我们下载的字体。

b、修改wordcolud.py文件中的字体设置，打开改路径下的wordcolud.py文件，找到下图的所示的框出来的这一行(29行)

将系统的DroidSansMono.tff修改为simhei.tff即可。

二、wordColud示例

1、设计一个简单的圆形词云

importnumpyasnp
importmatplotlib.pyplotasplt
fromwordcloudimportWordCloud,STOPWORDS
fromPILimportImage
fromosimportpath
importmatplotlib.pyplotasplt
#用来正常显示中文
plt.rcParams["font.sans-serif"]=["SimHei"]
#用来正常显示负号
plt.rcParams["axes.unicode_minus"]=False
importos
importrandom,jieba

'''
绘制单个词一个圆形的词云
'''
defsingle_wordColud():
text="第一第二第三第四"
#产生一个以(150,150)为圆心,半径为130的圆形mask
x,y=np.ogrid[:300,:300]
mask=(x-150)**2+(y-150)**2>130**2
mask=255*mask.astype(int)
wc=WordCloud(background_color="white",repeat=True,mask=mask)
wc.generate(text)

#将x轴和y轴坐标隐藏
plt.axis("off")
plt.imshow(wc,interpolation="bilinear")
plt.show()

2、以图片形状作为背景设计词云

下面以蜡笔小新的这张图片作为背景来设计一个词云，我们通过读取一个txt文件，文件中包含了很多段落，然后通过jieba对句子进行分词，去除停用词之后，生成一张词云的照片。

a、读取文件内容

使用jieba分词后，词之间需要通过空格进行分割，不然在产生词云的时候回变成一个词。

'''
中文分词
'''
defsegment_words(text):
article_contents=""
#使用jieba进行分词
words=jieba.cut(text,cut_all=False)
forwordinwords:
#使用空格来分割词
article_contents+=word+""
returnarticle_contents

b、读取停用词

停用词包括一些标点符号，和一些没有实际意义的词，我们需要将这些词都去除。

'''
从文件中读取停用词
'''
defget_stopwords():
dir_path=path.dirname(__file__)if"__file__"inlocals()elseos.getcwd()
#获取停用词的路径
stopwords_path=os.path.join(dir_path,"txt/stopwords.txt")
#创建set集合来保存停用词
stopwords=set()
#读取文件
f=open(stopwords_path,"r",encoding="utf-8")
line_contents=f.readline()
whileline_contents:
#去掉回车
line_contents=line_contents.replace("\n","").replace("\t","").replace("\u3000","")
stopwords.add(line_contents)
line_contents=f.readline()
returnstopwords

c、生成词云图片

defdrow_mask_wordColud():
#获取当前文件的父目录
d=path.dirname(__file__)if"__file__"inlocals()elseos.getcwd()
mask=np.array(Image.open(path.join(d,"img/test.jpg")))
text=open(path.join(d,"txt/test.txt"),"r",encoding="utf-8").read().
replace("\n","").replace("\t","").replace("\u3000","")
#对文本进行分词
text=segment_words(text)
#获取停用词
stopwords=get_stopwords()
#创建词云
'''
max_words:显示词的数量
mask:背景
stopwords:停用词,是一个set集合
margin:词之间的间隔
background_color:词云图片背景颜色
'''
wc=WordCloud(max_words=100,mask=mask,background_color="white",
stopwords=stopwords,margin=10,random_state=1).generate(text)
default_colors=wc.to_array()
##保存词云图片
#wc.to_file("a_new_hope.png")
plt.imshow(default_colors,interpolation="bilinear")
plt.axis("off")
plt.show()

3、自定义词云的颜色

fromwordcloudimportWordCloud,get_single_color_func
importmatplotlib.pyplotasplt

'''
定义一个字体颜色设置类
'''
classGroupedColorFunc(object):
def__init__(self,color_to_words,default_color):
self.color_func_to_words=[
(get_single_color_func(color),set(words))
for(color,words)incolor_to_words.items()
]
self.defalt_color_func=get_single_color_func(default_color)
defget_color_func(self,word):
try:
#设置每个词的颜色
color_func=next(color_funcfor(color_func,words)inself.color_func_to_words
ifwordinwords)
exceptStopIteration:
#词的默认颜色
color_func=self.defalt_color_func
returncolor_func
def__call__(self,word,**kwargs):
returnself.get_color_func(word)(word,**kwargs)


if__name__=="__main__":
text="第一第二第三第四第五第六"
#创建词云
wc=WordCloud(collocations=False,background_color="white").generate(text)
#设置词的颜色
color_to_words={
#使用RGB来设置词的颜色
"#00ff00":["第一","第五"],
"red":["第三","第六"],
"yellow":["第二"]
}
#设置词默认的颜色
default_color="blue"
grouped_color_func=GroupedColorFunc(color_to_words,default_color)
#设置词云的颜色
wc.recolor(color_func=grouped_color_func)
#显示词云图
plt.figure()
plt.imshow(wc,interpolation="bilinear")
plt.axis("off")
plt.show()

通过词的颜色设置类，来设置不同词的颜色。

4、自定义突出词的重要程度

在生成词云的时候，默认使用的是使得词频高的词更加突出，突出的词会比较大，有时候我们已经计算出了词的权重，想通过词云图来突出权重大小的差别。

fromwordcloudimportWordCloud
importmatplotlib.pyplotasplt
importnumpyasnp

defget_mask():
x,y=np.ogrid[:300,:300]
mask=(x-150)**2+(y-150)**2>130**2
mask=255*mask.astype(int)
returnmask

if__name__=="__main__":
#每个词的权重
text={"第一":0.1,"第二":0.2,"第三":0.3,"第四":0.4,"第五":0.5}
wc=WordCloud(background_color="white",mask=get_mask())
wc.generate_from_frequencies(text)
plt.axis("off")
plt.imshow(wc,interpolation="bilinear")
plt.show()

5、保存词云图片

wc.to_file("test.png")

更多关于python词云库wordCloud使用方法请查看下面的相关链接

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

python词云库wordCloud使用方法详解(解决中文乱码)

热门推荐

随机推荐