python scrapy重复执行实现代码详解
这篇文章主要介绍了pythonscrapy重复执行实现代码详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取
Scrapy模块:
1、scheduler:用来存放url队列
2、downloader:发送请求
3、spiders:提取数据和url
4、itemPipeline:数据保存
fromtwisted.internetimportreactor,defer fromscrapy.crawlerimportCrawlerRunner fromscrapy.utils.logimportconfigure_logging importtime importlogging fromscrapy.utils.projectimportget_project_settings #在控制台打印日志 configure_logging() #CrawlerRunner获取settings.py里的设置信息 runner=CrawlerRunner(get_project_settings()) @defer.inlineCallbacks defcrawl(): whileTrue: logging.info("newcyclestarting") yieldrunner.crawl("xxxxx") #1s跑一次 time.sleep(1) reactor.stop() crawl() reactor.run()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。