Python通过DOM和SAX方式解析XML的应用实例分享

2024-03-25 16:44:03 486

XML.DOM

需求
有一个表，里面数据量比较大，每天一更新，其字段可以通过xml配置文件进行配置，即，可能每次建表的字段不一样。

上游跑时会根据配置从源文件中提取，到入库这一步需要根据配置进行建表。

解决
写了一个简单的xml，配置需要字段及类型

上游读取到对应的数据

入库这一步，先把原表删除，根据配置建新表

XML文件

<?xmlversion="1.0"encoding="UTF-8"?>
<!--表名,数据库名可灵活配置插入哪个库哪个表-->
<tablename="top_query"db_name="evaluting_sys">
<!--非业务主键，自增长,可配名，其他INTEGERUNSIGNEDAUTO_INCREMENT-->
<primary_key>
<name>id</name>
</primary_key>
<!--字段开始-->
<field>
<name>query</name>
<type>varchar(200)</type>
<is_index>false</is_index>
<description>query</description>
</field>
<field>
<name>pv</name>
<type>integer</type>
<is_index>false</is_index>
<description>pv</description>
</field>
<field>
<name>avg_money</name>
<type>integer</type>
<is_index>false</is_index>
<description></description>
</field>
<!--字段配置结束-->
</table>

处理脚本

#!/usr/bin/python
#-*-coding:utf-8-*-
#author:wklken
#desc:usetoreaddbxmlconfig.
#-----------------------
#2012-02-18created
#----------------------

importsys,os
fromxml.domimportminidom,Node

defread_dbconfig_xml(xml_file_path):
content={}

root=minidom.parse(xml_file_path)
table=root.getElementsByTagName("table")[0]

#readdbnameandtablename.
table_name=table.getAttribute("name")
db_name=table.getAttribute("db_name")

iflen(table_name)>0andlen(db_name)>0:
db_sql="createdatabaseifnotexists`"+db_name+"`;use"+db_name+";"
table_drop_sql="drop"+table_name+"ifexists"+table_name+";"
content.update({"db_sql":db_sql})
content.update({"table_sql":table_drop_sql})
else:
print"Error:attributeisnotdefinewell!db_name="+db_name+";table_name="+table_name
sys.exit(1)
#printtable_name,db_name

table_create_sql="createtable"+table_name+"("

#readprimarycell
primary_key=table.getElementsByTagName("primary_key")[0]
primary_key_name=primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue

table_create_sql+=primary_key_name+"INTEGERNOTNULLAUTO_INCREMENTPRIMARYKEY,"

#printprimary_key.toxml()
#readordernaryfield
fields=table.getElementsByTagName("field")
f_index=0
forfieldinfields:
f_index+=1
name=field.getElementsByTagName("name")[0].childNodes[0].nodeValue
type=field.getElementsByTagName("type")[0].childNodes[0].nodeValue
table_create_sql+=name+""+type
iff_index!=len(fields):
table_create_sql+=","
is_index=field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue

table_create_sql+=");"
content.update({"table_create_sql":table_create_sql})
#charactersetlatin1collatelatin1_danish_ci;
printcontent


if__name__=="__main__":
read_dbconfig_xml(sys.argv[1])

涉及方法
root=minidom.parse(xml_file_path)获取dom对象

root.getElementsByTagName("table")根据tag获取节点列表

table.getAttribute("name")获取属性

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue获取子节点的值（id得到id）

SAX
需求
读取xml数据文件，文件较大，需要实时处理插入到数据库

xml文档

<PERSONS>
<person>
<id>100000</id>
<sex>男</sex>
<address>北京，海淀区</address>
<fansNum>437</fansNum>
<summary>1989</summary>
<wbNum>333</wbNum>
<gzNum>242</gzNum>
<blog>null</blog>
<edu>大学</edu>
<work></work>
<renZh>1</renZh>
<brithday>2月14日</brithday>
</person>
</PERSONS>

处理
sax处理时并不会像dom一样可以以类似节点的维度进行读取,它只有开始标签内容结束标签之分

处理思想是：通过一个handler，对开始标签，内容，结束标签各有一个处理函数

代码及注解
person处理类

fromxml.saximporthandler,parseString
classPersonHandler(handler.ContentHandler):
def__init__(self,db_ops):
#dbopobj
self.db_ops=db_ops
#存储一个person的map
self.person={}
#当前的tag
self.current_tag=""
#是否是tag之间的内容，目的拿到tag间内容，不受空白的干扰
self.in_quote=0
#开始，清空map
defstartElement(self,name,attr):
#以person，清空map
ifname=="person":
self.person={}
#记录状态
self.current_tag=name
self.in_quote=1
#结束，插入数据库
defendElement(self,name):
#以person结尾代表读取一个person的信息结束
ifname=="person":
#dosomething
in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields])
printin_sql%in_fields
db_ops.insert(in_sql%(in_fields))
#处理
self.in_quote=0
defcharacters(self,content):
#若是在tag之间的内容，更新到map中
ifself.in_quote:
self.person.update({self.current_tag:content})

加上入库的完整代码

#!/usr/bin/python
#-*-coding:utf-8-*-
#parse_person.py
#version:0.1
#author:wukunliang@163.com
#desc:parseperson.xmlandoutsql


importsys,os
importMySQLdb

reload(sys)
sys.setdefaultencoding('utf-8')

in_sql="insertintoperson(id,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday)values(%s,%s,%s,%s,%s,%s,
%s,%s,%s,%s,%s,%s)"

fields=("id","sex","address","fansNum","summary","wbNum","gzNum","blog","edu","work","renZh","brithday")

#数据库方法
classDb_Connect:
def__init__(self,db_host,user,pwd,db_name,charset="utf8",use_unicode=True):
print"initbegin"
printdb_host,user,pwd,db_name,charset,use_unicode
self.conn=MySQLdb.Connection(db_host,user,pwd,db_name,charset=charset,use_unicode=use_unicode)
print"initend"

definsert(self,sql):
try:
n=self.conn.cursor().execute(sql)
returnn
exceptMySQLdb.Warning,e:
print"Error:executesql'",sql,"'failed"

defclose(self):
self.conn.close()

#person处理类
fromxml.saximporthandler,parseString
classPersonHandler(handler.ContentHandler):
def__init__(self,db_ops):
#dbopobj
self.db_ops=db_ops
#存储一个person的map
self.person={}
#当前的tag
self.current_tag=""
#是否是tag之间的内容
self.in_quote=0
#开始，清空map
defstartElement(self,name,attr):
#以person，清空map
ifname=="person":
self.person={}
#记录状态
self.current_tag=name
self.in_quote=1
#结束，插入数据库
defendElement(self,name):
#以person结尾代表读取一个person的信息结束
ifname=="person":
#dosomething
in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields])
printin_sql%in_fields
db_ops.insert(in_sql%(in_fields))
#处理
self.in_quote=0
defcharacters(self,content):
#若是在tag之间的内容，更新到map中
ifself.in_quote:
self.person.update({self.current_tag:content})

if__name__=="__main__":
f=open("./person.xml")
#如果源文件gbk转码若是utf-8，去掉decode.encode
db_ops=Db_Connect("127.0.0.1","root","root","test")
parseString(f.read().decode("gbk").encode("utf-8"),PersonHandler(db_ops))
f.close()
db_ops.close()

平时拿python来分析数据，工具脚本还有hadoopstreamming，但是用的面和深度实在欠缺只能说道行还浅，需要多多实践

Python通过DOM和SAX方式解析XML的应用实例分享

热门推荐

随机推荐