Python3 实现爬取网站下所有URL方式
获取首页元素信息:
目标test_URL:http://www.xxx.com.cn/
首先检查元素,a标签下是我们需要爬取得链接,通过获取链接路径,定位出我们需要的信息
soup=Bs4(reaponse.text,"lxml") urls_li=soup.select("#mainmenu_top>div>div>ul>li")
首页的URL链接获取:
完成首页的URL链接获取,具体代码如下:
''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载! ''' defget_first_url(): list_href=[] reaponse=requests.get("http://www.xxx.com.cn",headers=headers) soup=Bs4(reaponse.text,"lxml") urls_li=soup.select("#mainmenu_top>div>div>ul>li") forurl_liinurls_li: urls=url_li.select("a") forurlinurls: url_href=url.get("href") list_href.append(head_url+url_href) out_url=list(set(list_href)) forreginout_url: print(reg)
遍历第一次返回的结果:
从第二步获取URL的基础上,遍历请求每个页面,获取页面中的URL链接,过滤掉不需要的信息
具体代码如下:
defget_next_url(urllist): url_list=[] forurlinurllist: response=requests.get(url,headers=headers) soup=Bs4(response.text,"lxml") urls=soup.find_all("a") ifurls: forurl2inurls: url2_1=url2.get("href") ifurl2_1: ifurl2_1[0]=="/": url2_1=head_url+url2_1 url_list.append(url2_1) ifurl2_1[0:24]=="http://www.xxx.com.cn": url2_1=url2_1 url_list.append(url2_1) else: pass else: pass else: pass else: pass url_list2=set(url_list) forurl_inurl_list2: res=requests.get(url_) ifres.status_code==200: print(url_) print(len(url_list2))
递归循环遍历:
递归实现爬取所有url,在get_next_url()函数中调用自身,代码如下:
get_next_url(url_list2)
全部代码如下:
importrequests frombs4importBeautifulSoupasBs4 head_url="http://www.xxx.com.cn" headers={ "User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/72.0.3626.121Safari/537.36" } defget_first_url(): list_href=[] reaponse=requests.get(head_url,headers=headers) soup=Bs4(reaponse.text,"lxml") urls_li=soup.select("#mainmenu_top>div>div>ul>li") forurl_liinurls_li: urls=url_li.select("a") forurlinurls: url_href=url.get("href") list_href.append(head_url+url_href) out_url=list(set(list_href)) returnout_url defget_next_url(urllist): url_list=[] forurlinurllist: response=requests.get(url,headers=headers) soup=Bs4(response.text,"lxml") urls=soup.find_all("a") ifurls: forurl2inurls: url2_1=url2.get("href") ifurl2_1: ifurl2_1[0]=="/": url2_1=head_url+url2_1 url_list.append(url2_1) ifurl2_1[0:24]=="http://www.xxx.com.cn": url2_1=url2_1 url_list.append(url2_1) else: pass else: pass else: pass else: pass url_list2=set(url_list) forurl_inurl_list2: res=requests.get(url_) ifres.status_code==200: print(url_) print(len(url_list2)) get_next_url(url_list2) if__name__=="__main__": urllist=get_first_url() get_next_url(urllist)
以上这篇Python3实现爬取网站下所有URL方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。