基于node.js实现爬虫的讲解
1.cheerio与request
- request:模拟客户端行为,对页面进行请求
- cheerio:对服务器端返回的页面进行解析;
varcheerio=require('cheerio'); varrequest=require('request'); varstartUrl='http://www.baidu.com' request(startUrl,function(err,response){ if(err){ console.log(err); } var$=cheerio.load(response.body); vartitle=$('title').text(); console.log(title); }
2.认识cheerio
获取element位置
通过class属性进行匹配:
var$=cheerio.load('
取其链接:
$('a.downbtn').attr('href')
某一页面下的全部可链接:
varurl= var$=cheerio.load(data); $("a.downbtn").each(function(i,e){ console.log($(e).attr("href")); }); console.log("done"); }else{ console.log("error"); }
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接