微客导航 » 文章资讯 » Python实现从url中提取域名的几种方法

Python实现从url中提取域名的几种方法

2024-04-07 23:39:05 373

从url中找到域名,首先想到的是用正则，然后寻找相应的类库。用正则解析有很多不完备的地方，url中有域名，域名后缀一直在不断增加等。通过google查到几种方法，一种是用Python中自带的模块和正则相结合来解析域名，另一种是使第三方用写好的解析模块直接解析出域名。

要解析的url


urls=["http://meiwen.me/src/index.html",

         "http://1000chi.com/game/index.html",

         "http://see.xidian.edu.cn/cpp/html/1429.html",

         "https://docs.python.org/2/howto/regex.html",

         """https://www.google.com.hk/search?client=aff-cs-360chromium&hs=TSj&q=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""",

         "file:///D:/code/echarts-2.0.3/doc/example/tooltip.html",

         "http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe",

         "https://pypi.python.org/pypi/publicsuffix/",

         "http://127.0.0.1:8000"

         ]

使用urlparse+正则的方式


importre

fromurlparseimporturlparse

topHostPostfix=( '.com','.la','.io','.co','.info','.net','.org','.me','.mobi', '.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn', '.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag', '.org.ag','.am','.asia','.at','.be','.com.br','.net.br', '.bz','.com.bz','.net.bz','.cc','.com.co','.net.co', '.nom.co','.de','.es','.com.es','.nom.es','.org.es', '.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in', '.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms', '.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz', '.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw', '.hk','.co.uk','.me.uk','.org.uk','.vg',".com.hk")

regx=r'[^\.]+('+'|'.join([h.replace('.',r'\.')forhintopHostPostfix])+')$' pattern=re.compile(regx,re.IGNORECASE)

print"--"*40 forurlinurls: parts=urlparse(url) host=parts.netloc m=pattern.search(host) res= m.group()ifmelsehost print"unkonw"ifnotreselseres

返回顶部
3162201930
czq8825@qq.com

Python实现从url中提取域名的几种方法

热门推荐

随机推荐