python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解
在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:
input:我今天赚了10个亿,老百姓veryhappy。
output:我今天赚了10个亿,老百姓veryhappy。
代码
defclean_space(text):
""""
处理多余的空格
"""
match_regex=re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1}+(?
python去除英文单词之间多余的空格
re.sub("+","",s)
importre
s="infohasbeenfound(+/-100pages,and4.5mbof.pdffiles)nowihavetowaituntillourteamleaderhasprocesseditandlearnshtml."
re.sub("+","",s)
''.join(s.split())
s="infohasbeenfound(+/-100pages,and4.5mbof.pdffiles)nowihavetowaituntillourteamleaderhasprocesseditandlearnshtml."
s=''.join(s.split())
s
更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
热门推荐
10 对患者生日祝福语简短
11 结婚祝福语简短装备
12 周岁祝福语学生文案简短
13 订婚领证祝福语简短精辟
14 导师获奖祝福语大全简短
15 新婚购房祝福语简短精辟
16 牛年祝福语简短的爱人
17 送芒果的祝福语简短
18 送给学长毕业祝福语简短