nodeJS实现简单网页爬虫功能的实例(分享)
本文将使用nodeJS实现一个简单的网页爬虫功能
网页源码
使用http.get()方法获取网页源码,以hao123网站的头条页面为例
http://tuijian.hao123.com/hotrank
varhttp=require('http');
http.get('http://tuijian.hao123.com/hotrank',function(res){
vardata='';
res.on('data',function(chunk){
data+=chunk;
});
res.on('end',function(){
console.log(data);
})
});
获得的结果如下所示:
热点排行榜-头条新闻-hao123新闻导航_hao123上网导航 window.aid="nWRkrj61PjnYriYYrHfsrHbsnHb"; hao123