基于node.js实现爬虫的讲解
1.cheerio与request
- request:模拟客户端行为,对页面进行请求
- cheerio:对服务器端返回的页面进行解析;
varcheerio=require('cheerio');
varrequest=require('request');
varstartUrl='http://www.baidu.com'
request(startUrl,function(err,response){
if(err){
console.log(err);
}
var$=cheerio.load(response.body);
vartitle=$('title').text();
console.log(title);
}
2.认识cheerio
获取element位置
通过class属性进行匹配:
var$=cheerio.load('取其链接:
$('a.downbtn').attr('href')
某一页面下的全部可链接:
varurl=
var$=cheerio.load(data);
$("a.downbtn").each(function(i,e){
console.log($(e).attr("href"));
});
console.log("done");
}else{
console.log("error");
}
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接