Python正则表达式匹配HTML页面编码
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:
importre a=["<metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/>", '<metahttp-equiv=Content-Typecontent="text/html;charset=gb2312">', '<metahttp-equiv="Content-Type"content="text/html;charset=iso-8859-1">', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="content-type"content="text/html;charset=utf-8"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>' ] b="<meta[]+http-equiv=["']?content-type["']?[]+content=["']?text/html;[]*charset=([0-9-a-zA-Z]+)["']?" B=re.compile(b,re.IGNORECASE) foraxina: r1=B.search(ax) ifr1: printr1.group() printr1.group(1),len(r1.group()) else: print'notmatch'
热门推荐
10 对患者生日祝福语简短
11 结婚祝福语简短装备
12 周岁祝福语学生文案简短
13 订婚领证祝福语简短精辟
14 导师获奖祝福语大全简短
15 新婚购房祝福语简短精辟
16 牛年祝福语简短的爱人
17 送芒果的祝福语简短
18 送给学长毕业祝福语简短