博主作为爬虫初学者,本次使用了requests和beautifulsoup库进行数据的爬取
爬取网站:http://datachart.500.com/dlt/history/history.shtml—500彩票网
(分析后发现网站源代码并非是通过页面跳转来查找不同的数据,故可通过F12查找network栏找到真正储存所有历史开奖结果的网页)
如图:
爬虫部分:
frombs4importBeautifulSoup#引用BeautifulSoup库
importrequests#引用requests
importos#os
importpandasaspd
importcsv
importcodecs
lst=[]
url='http://datachart.500.com/dlt/history/newinc/history.php?start=07001&end=21018'
r=requests.get(url)
r.encoding='utf-8'
text=r.text
soup=BeautifulSoup(text,"html.parser")
tbody=soup.find('tbody',id="tdata")
tr=tbody.find_all('tr')
td=tr[0].find_all('td')
forpageinrange(0,14016):
td=tr
12下一页阅读全文 声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。