Python正则表达式匹配HTML页面编码
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:
importre a=["<metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/>", '<metahttp-equiv=Content-Typecontent="text/html;charset=gb2312">', '<metahttp-equiv="Content-Type"content="text/html;charset=iso-8859-1">', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="content-type"content="text/html;charset=utf-8"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>' ] b="<meta[]+http-equiv=["']?content-type["']?[]+content=["']?text/html;[]*charset=([0-9-a-zA-Z]+)["']?" B=re.compile(b,re.IGNORECASE) foraxina: r1=B.search(ax) ifr1: printr1.group() printr1.group(1),len(r1.group()) else: print'notmatch'
热门推荐
10 小红书平安祝福语简短
11 生日祝福语大全女孩简短
12 收生日红包祝福语 简短
13 领证幽默祝福语简短
14 法考面试祝福语简短
15 老哥出门祝福语简短语
16 送灯祝福语简短独特
17 幼儿狗年祝福语大全简短
18 好听的元旦简短祝福语