Python lxml模块的基本使用方法分析
本文实例讲述了Pythonlxml模块的基本使用方法。分享给大家供大家参考,具体如下:
1lxml的安装
安装方式:pipinstalllxml
2lxml的使用
2.1lxml模块的入门使用
导入lxml的etree库(导入没有提示不代表不能用)
fromlxmlimportetree
利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据
html=etree.HTML(text) ret_list=html.xpath("xpath字符串")
把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)
假设我们现有如下的html字符换,尝试对他进行操作
firstitem seconditem thirditem fourthitem fifthitem#注意,此处缺少一个闭合标签
fromlxmlimportetree text='''''' html=etree.HTML(text) print(type(html)) handeled_html_str=etree.tostring(html).decode() print(handeled_html_str)
firstitem seconditem thirditem fourthitem fifthitem
输出为
firstitem
seconditem
thirditem
fourthitem
fifthitem
可以发现,lxml确实能够把确实的标签补充完成,但是请注意lxml是人写的,很多时候由于网页不够规范,或者是lxml的bug,即使参考url地址对应的响应去提取数据,任然获取不到,这个时候我们需要使用etree.tostring的方法,观察etree到底把html转化成了什么样子,即根据转化后的html字符串去进行数据的提取。
2.2lxml的深入练习
接下来我们继续操作,假设每个class为item-1的li标签是1条新闻数据,如何把这条新闻数据组成一个字典
fromlxmlimportetree text='''''' html=etree.HTML(text) #获取href的列表和title的列表 href_list=html.xpath("//li[@class='item-1']/a/@href") title_list=html.xpath("//li[@class='item-1']/a/text()") #组装成字典 forhrefinhref_list: item={} item["href"]=href item["title"]=title_list[href_list.index(href)] print(item)
firstitem seconditem thirditem fourthitem fifthitem
输出为
{'href':'link1.html','title':'firstitem'}
{'href':'link2.html','title':'seconditem'}
{'href':'link4.html','title':'fourthitem'}
假设在某种情况下,某个新闻的href没有,那么会怎样呢?
fromlxmlimportetree text=''''''
firstitem seconditem thirditem fourthitem fifthitem
结果是
{'href':'link2.html','title':'firstitem'}
{'href':'link4.html','title':'seconditem'}
数据的对应全部错了,这不是我们想要的,接下来通过2.3小节的学习来解决这个问题
2.3lxml模块的进阶使用
前面我们取到属性,或者是文本的时候,返回字符串但是如果我们取到的是一个节点,返回什么呢?
返回的是element对象,可以继续使用xpath方法,对此我们可以在后面的数据提取过程中:先根据某个标签进行分组,分组之后再进行数据的提取
示例如下:
fromlxmlimportetree text='''''' html=etree.HTML(text) li_list=html.xpath("//li[@class='item-1']") print(li_list)
firstitem seconditem thirditem fourthitem fifthitem
结果为:
[
, , ]
可以发现结果是一个element对象,这个对象能够继续使用xpath方法
先根据li标签进行分组,之后再进行数据的提取
fromlxmlimportetree text='''''' #根据li标签进行分组 html=etree.HTML(text) li_list=html.xpath("//li[@class='item-1']") #在每一组中继续进行数据的提取 forliinli_list: item={} item["href"]=li.xpath("./a/@href")[0]iflen(li.xpath("./a/@href"))>0elseNone item["title"]=li.xpath("./a/text()")[0]iflen(li.xpath("./a/text()"))>0elseNone print(item)
firstitem seconditem thirditem fourthitem fifthitem
结果是:
{'href':None,'title':'firstitem'}
{'href':'link2.html','title':'seconditem'}
{'href':'link4.html','title':'fourthitem'}
前面的代码中,进行数据提取需要判断,可能某些一面不存在数据的情况,对应的可以使用三元运算符来解决
PS:这里再为大家提供几款关于xml操作的在线工具供大家参考使用:
在线