python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解
在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:
input:我今天赚了10个亿,老百姓veryhappy。
output:我今天赚了10个亿,老百姓veryhappy。
代码
defclean_space(text): """" 处理多余的空格 """ match_regex=re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1}+(?python去除英文单词之间多余的空格
re.sub("+","",s)
importre s="infohasbeenfound(+/-100pages,and4.5mbof.pdffiles)nowihavetowaituntillourteamleaderhasprocesseditandlearnshtml." re.sub("+","",s)''.join(s.split())
s="infohasbeenfound(+/-100pages,and4.5mbof.pdffiles)nowihavetowaituntillourteamleaderhasprocesseditandlearnshtml." s=''.join(s.split()) s更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。