Python lxml模块的基本使用方法分析

2023-08-04 04:53:04 410

本文实例讲述了Pythonlxml模块的基本使用方法。分享给大家供大家参考，具体如下：

1lxml的安装

安装方式：pipinstalllxml

2lxml的使用

2.1lxml模块的入门使用

导入lxml的etree库(导入没有提示不代表不能用)

fromlxmlimportetree

利用etree.HTML，将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表，能够接受bytes类型的数据和str类型的数据

html=etree.HTML(text)
ret_list=html.xpath("xpath字符串")

把转化后的element对象转化为字符串，返回bytes类型结果 etree.tostring(element)

假设我们现有如下的html字符换，尝试对他进行操作


firstitem
seconditem
thirditem
fourthitem
fifthitem#注意，此处缺少一个闭合标签

fromlxmlimportetree
text='''
firstitem
seconditem
thirditem
fourthitem
fifthitem
'''
html=etree.HTML(text)
print(type(html))
handeled_html_str=etree.tostring(html).decode()
print(handeled_html_str)

输出为

firstitem
seconditem
thirditem
fourthitem
fifthitem

可以发现，lxml确实能够把确实的标签补充完成，但是请注意lxml是人写的，很多时候由于网页不够规范，或者是lxml的bug，即使参考url地址对应的响应去提取数据，任然获取不到，这个时候我们需要使用etree.tostring的方法，观察etree到底把html转化成了什么样子，即根据转化后的html字符串去进行数据的提取。

2.2lxml的深入练习

接下来我们继续操作，假设每个class为item-1的li标签是1条新闻数据，如何把这条新闻数据组成一个字典

fromlxmlimportetree
text='''
firstitem
seconditem
thirditem
fourthitem
fifthitem
'''
html=etree.HTML(text)
#获取href的列表和title的列表
href_list=html.xpath("//li[@class='item-1']/a/@href")
title_list=html.xpath("//li[@class='item-1']/a/text()")
#组装成字典
forhrefinhref_list:
item={}
item["href"]=href
item["title"]=title_list[href_list.index(href)]
print(item)

输出为

{'href':'link1.html','title':'firstitem'}
{'href':'link2.html','title':'seconditem'}
{'href':'link4.html','title':'fourthitem'}

假设在某种情况下，某个新闻的href没有，那么会怎样呢？

fromlxmlimportetree
text='''
firstitem
seconditem
thirditem
fourthitem
fifthitem
'''

结果是

{'href':'link2.html','title':'firstitem'}
{'href':'link4.html','title':'seconditem'}

数据的对应全部错了，这不是我们想要的，接下来通过2.3小节的学习来解决这个问题

2.3lxml模块的进阶使用

前面我们取到属性，或者是文本的时候，返回字符串但是如果我们取到的是一个节点，返回什么呢?

返回的是element对象，可以继续使用xpath方法，对此我们可以在后面的数据提取过程中：先根据某个标签进行分组，分组之后再进行数据的提取

示例如下：

fromlxmlimportetree
text='''
firstitem
seconditem
thirditem
fourthitem
fifthitem
'''
html=etree.HTML(text)
li_list=html.xpath("//li[@class='item-1']")
print(li_list)

结果为：

[,,]

可以发现结果是一个element对象，这个对象能够继续使用xpath方法

先根据li标签进行分组，之后再进行数据的提取

fromlxmlimportetree
text='''
firstitem
seconditem
thirditem
fourthitem
fifthitem
'''
#根据li标签进行分组
html=etree.HTML(text)
li_list=html.xpath("//li[@class='item-1']")
#在每一组中继续进行数据的提取
forliinli_list:
item={}
item["href"]=li.xpath("./a/@href")[0]iflen(li.xpath("./a/@href"))>0elseNone
item["title"]=li.xpath("./a/text()")[0]iflen(li.xpath("./a/text()"))>0elseNone
print(item)

结果是：

{'href':None,'title':'firstitem'}
{'href':'link2.html','title':'seconditem'}
{'href':'link4.html','title':'fourthitem'}

前面的代码中，进行数据提取需要判断，可能某些一面不存在数据的情况，对应的可以使用三元运算符来解决

PS：这里再为大家提供几款关于xml操作的在线工具供大家参考使用：

在线XML/JSON互相转换工具：

Python lxml模块的基本使用方法分析

热门推荐

随机推荐