scrapy处理python爬虫调度详解
学习了简单的知识点,就会想要向有难度的问题挑战,这里必须要夸一夸小伙伴们。不过我们今天不需要做什么程序的测试,只用简单的两个代码对比,小伙伴们就能在其中体会两者的不同和难易程度。scrapy能否适合处理python爬虫调度的问题,小编直接说出答案小伙伴们也不能马上信服,下面就让我们在示例中找寻答案吧。
总的来说,需要使用代码来爬一些数据的大概分为两类人:
非程序员,需要爬一些数据来做毕业设计、市场调研等等,他们可能连Python都不是很熟;
程序员,需要设计大规模、分布式、高稳定性的爬虫系统,对他们来说,语言都无所谓的,更别说用不用框架了。
对于一个任何一个已经入门的程序员来说,Python都算不上一个很复杂的语言,除了不用大括号可能让一些人感觉有些不适应之外,基本上看看语法上手就能写了。但是恰恰是因为我们都是老司机了,所以不能体会到使用一门编程语言对于外行来说可能『比登天还难』。如果不用scrapy,可能我只需要这样:
importrequests defmain(): foriinrange(100): rsp=requests.get(f"http://www.example.com/{i}.html") withopen("example-{i}.txt","w")asf: f.write(rsp.text) if__name__=="__main__": main()
就写好了一个简单的爬虫,而使用scrapy呢,大概需要这样吧:
importscrapy classQuotesSpider(scrapy.Spider): name='quotes' defstart_requests(self): urls=[ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/' ] forurlinurls: yieldscrapy.Request(url=url,callback=self.parse) defparse(self,response): page=response.url.split('/')[-2] filename='quotes-%s.html'%page withopen(filename,'wb')asf: f.write(response.body) self.log('Savefile%s'%filename)
先不说代码增长了一倍有余,初学者会问到这些问题:什么是class?为什么类还有参数?啊,什么是继承?yield又是什么鬼,那个scrapy.Request又是啥?这些都是负担。
既然要开发大型爬虫系统,那么其中很重要的一部分就是爬虫的调度了。一种比较简单的模式是scheduler作为master,全局调度。另一种模式没有master,所有的爬虫worker都是对等的。在实际生产中显然是第一种用的更多。
显然scheduler这部分是不能再用一个爬虫框架来实现的,连主循环都没有咋写逻辑呢?我们可能还要实现增量爬取,或者消费业务方发来的爬取请求等各种业务,这块显然是在scheduler里面的,那么这个爬虫系统无非是scheduler分发任务给各个worker来抓取。worker还可以使用scrapy实现,但是呢,这个worker其实已经弱化为一层薄薄的downloader了,那我要他干嘛呢?scrapy的核心逻辑也不过是个深度或者广度优先的遍历而已,少一个依赖不好么……
爬虫的工作量要么在反爬,要么在调度等业务逻辑,本身只是一个requests.get而已,scrapy提供的种种抽象对于初学者太复杂,大型系统又用不上,所以个人不推荐使用包括但不限于scrapy在内的所有爬虫框架。
内容扩展:
Scrapy模块
1、scheduler:用来存放url队列
2、downloader:发送请求
3、spiders:提取数据和url
4、itemPipeline:数据保存
fromtwisted.internetimportreactor,defer fromscrapy.crawlerimportCrawlerRunner fromscrapy.utils.logimportconfigure_logging importtime importlogging fromscrapy.utils.projectimportget_project_settings #在控制台打印日志 configure_logging() #CrawlerRunner获取settings.py里的设置信息 runner=CrawlerRunner(get_project_settings()) @defer.inlineCallbacks defcrawl(): whileTrue: logging.info("newcyclestarting") yieldrunner.crawl("xxxxx") #1s跑一次 time.sleep(1) reactor.stop() crawl() reactor.run()
到此这篇关于scrapy处理python爬虫调度详解的文章就介绍到这了,更多相关scrapy适合处理python爬虫调度吗内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!