Python爬虫基础之XPath语法与lxml库的用法详解
前言
本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。XPath同样也支持HTML。
XPath是一门小型的查询语言。
python中lxml库使用的是Xpath语法,是效率比较高的解析方法。
下面话不多说了,来一起看看详细的介绍吧
安装
为什么要用这个库呢,因为要写爬虫啊,利用lxml库来解析HTML代码,同时lxml也继承了libxml2的特性自动修正HTML代码,利用pip安装即可
pipinstalllxml
XPath语法
XPath是一门在XML文档中查找信息的语言,可以用于在XML文档中通过元素和属性进行导航
举个栗子