Python使用scrapy抓取网站sitemap信息的方法
本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:
importre
fromscrapy.spiderimportBaseSpider
fromscrapyimportlog
fromscrapy.utils.responseimportbody_or_str
fromscrapy.httpimportRequest
fromscrapy.selectorimportHtmlXPathSelector
classSitemapSpider(BaseSpider):
name="SitemapSpider"
start_urls=["http://www.domain.com/sitemap.xml"]
defparse(self,response):
nodename='loc'
text=body_or_str(response)
r=re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
formatchinr.finditer(text):
url=match.group(2)
yieldRequest(url,callback=self.parse_page)
defparse_page(self,response):
hxs=HtmlXPathSelector(response)
#MockItem
blah=Item()
#Doallyourpageparsingandselectingtheelemtentsyouwant
blash.divText=hxs.select('//div/text()').extract()[0]
yieldblah
希望本文所述对大家的Python程序设计有所帮助。
热门推荐
10 八一幼儿祝福语大全简短
11 公司乔迁食堂祝福语简短
12 婚礼结束聚餐祝福语简短
13 儿媳买车妈妈祝福语简短
14 毕业送礼老师祝福语简短
15 同事辞职正常祝福语简短
16 恭贺新婚文案祝福语简短
17 金店立秋祝福语简短英文
18 婆婆高寿祝福语大全简短