微客导航 » 文章资讯 » Python3 解决读取中文文件txt编码的问题

Python3 解决读取中文文件txt编码的问题

2023-08-04 04:39:04 434

问题描述

尝试用Python写一个Wordcloud的时候，出现了编码问题。

照着网上某些博客的说法添添改改后，结果是变成了“UnicodeDecodeError:‘utf-8'codeccan'tdecodebyte…”这个错误。

捣鼓了一天啊，TXT（此处为本人现下内心表情）。最后，干脆写个最简单的文件读取，竟然还是报错。于是就考虑是不是txt的编码问题，因为读取的txt文件是在Mac上面新建的纯文本文件，一时没找到在哪里查看编码，最后拷贝到Windows系统上，查看了txt文件的编码，竟然是ASCII，不是我最爱的utf-8，Mac你辜负了我对你的一番信任啊！ε(┬┬﹏┬┬)3

解决方法

将txt文件的编码格式改为utf-8即可

此外，在打开文件的时候，要加上第三个参数encoding=‘utf8'(没有横杠)。

withopen('./test3.txt','r',encoding='utf8')asfin:
forlineinfin.readlines():
line=line.strip('\n')

下面附上第一次成功显示的词云的源码（参考网上他人的，注释很详细）

importjieba
importjieba.analyse
frommatplotlibimportpyplotasplt
fromscipy.miscimportimread
fromwordcloudimportWordCloud,STOPWORDS,ImageColorGenerator

#1.读取数据
withopen("./test.txt","r",encoding="utf8")asf:
text=f.read()

#2.基于TextRank算法的关键词抽取,top50
keywords=jieba.analyse.textrank(text,topK=50,withWeight=False,allowPOS=('ns','n','vn','v'))
file=",".join(keywords)

#指定中文字体，不然中文显示框框
font=r'./HYQiHei-25J.ttf'
print(file)
#指定背景图,随意
image=imread('cake.jpg')
wc=WordCloud(
font_path=font,
background_color='white',#背景色
mask=image,#背景图
stopwords=STOPWORDS,#设置停用词
max_words=100,#设置最大文字数
max_font_size=100,#设置最大字体
width=800,
height=1000,

)

#生成词云
image_colors=ImageColorGenerator(image)
wc.generate(file)

#使用matplotlib,显示词云图
plt.imshow(wc)#显示词云图
plt.axis('off')#关闭坐标轴
plt.show()
#保存图片
wc.to_file('news.png')

以上这篇Python3解决读取中文文件txt编码的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

Python3 解决读取中文文件txt编码的问题

热门推荐

随机推荐