python提取页面内url列表的方法
本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:
frombs4importBeautifulSoup
importtime,re,urllib2
t=time.time()
websiteurls={}
defscanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
forlinksinpageurls:
ifwebsiteurlinlinks.get("href")andlinks.get("href")notinUpageurlsandlinks.get("href")notinwebsiteurls:
Upageurls[links.get("href")]=0
forlinksinUpageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print"connectfailed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
printn,
printlinks,
printUpageurls[links]
t1=time.time()
printt1-t2
n+=1
print("totalis"+repr(n)+"links")
printtime.time()-t
scanpage("http://news.163.com/")
希望本文所述对大家的Python程序设计有所帮助。
热门推荐
10 八一幼儿祝福语大全简短
11 公司乔迁食堂祝福语简短
12 婚礼结束聚餐祝福语简短
13 儿媳买车妈妈祝福语简短
14 毕业送礼老师祝福语简短
15 同事辞职正常祝福语简短
16 恭贺新婚文案祝福语简短
17 金店立秋祝福语简短英文
18 婆婆高寿祝福语大全简短