python中django框架通过正则搜索页面上email地址的方法
本文实例讲述了python中django框架通过正则搜索页面上email地址的方法。分享给大家供大家参考。具体实现方法如下:
importre
fromdjango.shortcutsimportrender
frompattern.webimportURL,DOM,abs,find_urls
defindex(request):
"""
findemailaddressesinrequestedurlorcontactpage
"""
error=''
emails=set()
url_string=request.GET.get('url','')
EMAIL_REGEX=re.compile(r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,6}',re.IGNORECASE)
#useabsoluteurlordomainname
url=URL(url_string)ifurl_string.startswith('http')elseURL(domain=url_string,protocol='http')
ifurl_string:
try:
dom=DOM(url.download(cached=True))
exceptException,e:
error=e
else:
contact_urls={url.string}
#searchlinksofcontactpage
forlinkindom('a'):
ifre.search(r'contact|about',link.source,re.IGNORECASE):
contact_urls.add(
abs(link.attributes.get('href',''),base=url.redirectorurl.string))
forcontact_urlincontact_urls:
#downloadcontactpage
dom=DOM(URL(contact_url).download(cached=True))
#searchemailsinthebodyofthepage
forlineindom('body')[0].content.split('\n'):
found=EMAIL_REGEX.search(line)
iffound:
emails.add(found.group())
data={
'url':url_string,
'emails':emails,
'error':error,
}
returnrender(request,'index.html',data)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
希望本文所述对大家的Python程序设计有所帮助。