微客导航 » 文章资讯 » Node.JS利用PhantomJs抓取网页入门教程

Node.JS利用PhantomJs抓取网页入门教程

2024-02-23 13:36:30 414

前言

当想用nodejs抓取一些网页,我第一反应想到的就是使用http模块,比如抓取百度首页:

varhttp=require('http');
varreq=http.request('http://www.baidu.com/',function(res){
res.setEncoding('utf8');
res.on('data',function(chunk){
//响应内容
console.log(chunk)
});
});
req.end(function(){
//console.log('连接关闭');
});

但是,这仅限于简单地抓取html,有很大的局限性。

假如你想要的内容不在html里,而是js动态生成的,那http模块就不能满足你的需求了;

假如网页使gbk编码的,上述方法也不太好用了。

假如是https上述方法也要改一改了。

我渴望一个更强大,但使用起来也不麻烦的工具。

PhantomJs

用PhantomJs就可以解决上述问题。

PhantomJs就是一个没有界面的浏览器。

安装

使用cnpm安装PhantomJS即可:

cnpminstallphantomjs--save-dev

这里我没有选择全局安装,因为全局安装的话,别人使用我的源码的时候,不知道还有这么一个依赖,项目就跑不起来了。

如果你也选择局部安装,那么你需要在package.json里的scripts中加入一段:

"phantomjs":"node_modules/.bin/phantomjs"

等下会用到这个的,到这里,安装算完成了。

写代码

我们新建一个文件,名字随意,这里我新建一个main.js:

varwebpage=require('webpage');
varpage=webpage.create();
page.open('http://www.baidu.com/',function(status){
vardata;
if(status==='fail'){
console.log('openpagefail!');
}else{
console.log(page.content);//打印出HTML内容
}
page.close();//关闭网页
phantom.exit();//退出phantomjs命令行
});

这里有个webpage模块,我们刚才明明没有这个模块,为什么能引用这个模块???

当然不能引用,假如我们使用nodemain.js来跑这段代码,是跑不起来的,应该这样运行这段代码:

npmrunphantomjsmain.js

这里的npmrunphantomjs对应的就是前面我们在package.json里加入的那段命令,很方便吧,几乎和http模块一样方便。

page.content就是html代码了,这个page对象还有很多的属性,功能更强大。

到这里,你就已经算入门了,想知道更多可以去phantomjs官网看看文档了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对毛票票的支持。

返回顶部
3162201930
czq8825@qq.com

Node.JS利用PhantomJs抓取网页入门教程

热门推荐

随机推荐