python提取页面内url列表的方法
本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:
frombs4importBeautifulSoup
importtime,re,urllib2
t=time.time()
websiteurls={}
defscanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
forlinksinpageurls:
ifwebsiteurlinlinks.get("href")andlinks.get("href")notinUpageurlsandlinks.get("href")notinwebsiteurls:
Upageurls[links.get("href")]=0
forlinksinUpageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print"connectfailed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
printn,
printlinks,
printUpageurls[links]
t1=time.time()
printt1-t2
n+=1
print("totalis"+repr(n)+"links")
printtime.time()-t
scanpage("http://news.163.com/")
希望本文所述对大家的Python程序设计有所帮助。