python爬虫今日热榜数据到txt文件的源码
今日热榜:https://tophub.today/
爬取数据及保存格式:
爬取后保存为.txt文件:
部分内容:
源码及注释:
importrequests frombs4importBeautifulSoup defdownload_page(url): headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/79.0.3945.130Safari/537.36"} try: r=requests.get(url,timeout=30,headers=headers) returnr.text except: return"pleaseinspectyoururlorsetup" defget_content(html,tag): output="""排名:{}\n标题:{}\n热度:{}\n链接:{}\n------------\n""" output2="""平台:{}榜单类型:{}最近更新:{}\n------------\n""" num=[] title=[] hot=[] href=[] soup=BeautifulSoup(html,'html.parser') con=soup.find('div',attrs={'class':'bc-cc'}) con_list=con.find_all('div',class_="cc-cd") foriincon_list: author=i.find('div',class_='cc-cd-lb').get_text()#获取平台名字 time=i.find('div',class_='i-h').get_text()#获取最近更新 link=i.find('div',class_='cc-cd-cb-l').find_all('a')#获取所有链接 gender=i.find('span',class_='cc-cd-sb-st').get_text()#获取类型 save_txt(tag,output2.format(author,gender,time)) forkinlink: href.append(k['href']) num.append(k.find('span',class_='s').get_text()) title.append(str(k.find('span',class_='t').get_text())) hot.append(str(k.find('span',class_='e').get_text())) forhinrange(len(num)): save_txt(tag,output.format(num[h],title[h],hot[h],href[h])) defsave_txt(tag,*args): foriinargs: withopen(tag+'.txt','a',encoding='utf-8')asf: f.write(i) defmain(): #综合科技娱乐社区购物财经 page=['news','tech','ent','community','shopping','finance'] fortaginpage: url='https://tophub.today/c/{}'.format(tag) html=download_page(url) get_content(html,tag) if__name__=='__main__': main()
到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。