python 读写文件包含多种编码格式的解决方式
今天写一个脚本文件,需要将多个文件中的内容汇总到一个txt文件中,由于多个文件有三种不同的编码方式,读写出现错误,先将解决方法记录如下:
#-*-coding:utf-8-*-
importwave
importpylabaspl
importnumpyasnp
importpandasaspd
importos
importtime
importdatetime
importarrow
importchardet
importsys
reload(sys)
sys.setdefaultencoding('utf8')
os.chdir("F:/new_srt")
#getwordsofsrtfile
###########################################
defget_word():
path="F:/new_srt"
filelist=os.listdir(path)
forfilesinfilelist:
printfiles
encoding=chardet.detect(open(files,'r').read())['encoding']
ifencoding=='utf-8':
data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
elifencoding=='GB2312':
try:
data=pd.read_csv(files,encoding="gbk",sep='\r',header=None)
exceptUnicodeDecodeError:
data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
elifencoding=='UTF-8-SIG':
data=pd.read_csv(files,encoding="UTF-8-SIG",sep='\r',header=None)
else:
print'thisisanerrorabout%s'%files
data_new=pd.DataFrame(np.reshape(data.values,(-1,3)))
data_new.columns=['index','timecut','content']
filename=os.path.splitext(files)[0]#filetype=os.path.splitext(files)[1]
withopen('F:/result.txt','a')asfile:
file.write(str(filename)+'')
foritemindata_new['content']:
file.write(item.decode("utf-8")+'')#s=s.decode("utf-8")
file.write('\n')
if__name__=='__main__':
get_word()
以上这篇python读写文件包含多种编码格式的解决方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。