Python通过DOM和SAX方式解析XML的应用实例分享
XML.DOM
需求
有一个表,里面数据量比较大,每天一更新,其字段可以通过xml配置文件进行配置,即,可能每次建表的字段不一样。
上游跑时会根据配置从源文件中提取,到入库这一步需要根据配置进行建表。
解决
写了一个简单的xml,配置需要字段及类型
上游读取到对应的数据
入库这一步,先把原表删除,根据配置建新表
XML文件
<?xmlversion="1.0"encoding="UTF-8"?> <!--表名,数据库名可灵活配置插入哪个库哪个表--> <tablename="top_query"db_name="evaluting_sys"> <!--非业务主键,自增长,可配名,其他INTEGERUNSIGNEDAUTO_INCREMENT--> <primary_key> <name>id</name> </primary_key> <!--字段开始--> <field> <name>query</name> <type>varchar(200)</type> <is_index>false</is_index> <description>query</description> </field> <field> <name>pv</name> <type>integer</type> <is_index>false</is_index> <description>pv</description> </field> <field> <name>avg_money</name> <type>integer</type> <is_index>false</is_index> <description></description> </field> <!--字段配置结束--> </table>
处理脚本
#!/usr/bin/python
#-*-coding:utf-8-*-
#author:wklken
#desc:usetoreaddbxmlconfig.
#-----------------------
#2012-02-18created
#----------------------
importsys,os
fromxml.domimportminidom,Node
defread_dbconfig_xml(xml_file_path):
content={}
root=minidom.parse(xml_file_path)
table=root.getElementsByTagName("table")[0]
#readdbnameandtablename.
table_name=table.getAttribute("name")
db_name=table.getAttribute("db_name")
iflen(table_name)>0andlen(db_name)>0:
db_sql="createdatabaseifnotexists`"+db_name+"`;use"+db_name+";"
table_drop_sql="drop"+table_name+"ifexists"+table_name+";"
content.update({"db_sql":db_sql})
content.update({"table_sql":table_drop_sql})
else:
print"Error:attributeisnotdefinewell!db_name="+db_name+";table_name="+table_name
sys.exit(1)
#printtable_name,db_name
table_create_sql="createtable"+table_name+"("
#readprimarycell
primary_key=table.getElementsByTagName("primary_key")[0]
primary_key_name=primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue
table_create_sql+=primary_key_name+"INTEGERNOTNULLAUTO_INCREMENTPRIMARYKEY,"
#printprimary_key.toxml()
#readordernaryfield
fields=table.getElementsByTagName("field")
f_index=0
forfieldinfields:
f_index+=1
name=field.getElementsByTagName("name")[0].childNodes[0].nodeValue
type=field.getElementsByTagName("type")[0].childNodes[0].nodeValue
table_create_sql+=name+""+type
iff_index!=len(fields):
table_create_sql+=","
is_index=field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue
table_create_sql+=");"
content.update({"table_create_sql":table_create_sql})
#charactersetlatin1collatelatin1_danish_ci;
printcontent
if__name__=="__main__":
read_dbconfig_xml(sys.argv[1])
涉及方法
root=minidom.parse(xml_file_path)获取dom对象
root.getElementsByTagName("table")根据tag获取节点列表
table.getAttribute("name")获取属性
primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue获取子节点的值(id得到id)
SAX
需求
读取xml数据文件,文件较大,需要实时处理插入到数据库
xml文档
<PERSONS> <person> <id>100000</id> <sex>男</sex> <address>北京,海淀区</address> <fansNum>437</fansNum> <summary>1989</summary> <wbNum>333</wbNum> <gzNum>242</gzNum> <blog>null</blog> <edu>大学</edu> <work></work> <renZh>1</renZh> <brithday>2月14日</brithday> </person> </PERSONS>
处理
sax处理时并不会像dom一样可以以类似节点的维度进行读取,它只有开始标签内容结束标签之分
处理思想是:通过一个handler,对开始标签,内容,结束标签各有一个处理函数
代码及注解
person处理类
fromxml.saximporthandler,parseString
classPersonHandler(handler.ContentHandler):
def__init__(self,db_ops):
#dbopobj
self.db_ops=db_ops
#存储一个person的map
self.person={}
#当前的tag
self.current_tag=""
#是否是tag之间的内容,目的拿到tag间内容,不受空白的干扰
self.in_quote=0
#开始,清空map
defstartElement(self,name,attr):
#以person,清空map
ifname=="person":
self.person={}
#记录状态
self.current_tag=name
self.in_quote=1
#结束,插入数据库
defendElement(self,name):
#以person结尾代表读取一个person的信息结束
ifname=="person":
#dosomething
in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields])
printin_sql%in_fields
db_ops.insert(in_sql%(in_fields))
#处理
self.in_quote=0
defcharacters(self,content):
#若是在tag之间的内容,更新到map中
ifself.in_quote:
self.person.update({self.current_tag:content})
加上入库的完整代码
#!/usr/bin/python
#-*-coding:utf-8-*-
#parse_person.py
#version:0.1
#author:wukunliang@163.com
#desc:parseperson.xmlandoutsql
importsys,os
importMySQLdb
reload(sys)
sys.setdefaultencoding('utf-8')
in_sql="insertintoperson(id,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday)values(%s,%s,%s,%s,%s,%s,
%s,%s,%s,%s,%s,%s)"
fields=("id","sex","address","fansNum","summary","wbNum","gzNum","blog","edu","work","renZh","brithday")
#数据库方法
classDb_Connect:
def__init__(self,db_host,user,pwd,db_name,charset="utf8",use_unicode=True):
print"initbegin"
printdb_host,user,pwd,db_name,charset,use_unicode
self.conn=MySQLdb.Connection(db_host,user,pwd,db_name,charset=charset,use_unicode=use_unicode)
print"initend"
definsert(self,sql):
try:
n=self.conn.cursor().execute(sql)
returnn
exceptMySQLdb.Warning,e:
print"Error:executesql'",sql,"'failed"
defclose(self):
self.conn.close()
#person处理类
fromxml.saximporthandler,parseString
classPersonHandler(handler.ContentHandler):
def__init__(self,db_ops):
#dbopobj
self.db_ops=db_ops
#存储一个person的map
self.person={}
#当前的tag
self.current_tag=""
#是否是tag之间的内容
self.in_quote=0
#开始,清空map
defstartElement(self,name,attr):
#以person,清空map
ifname=="person":
self.person={}
#记录状态
self.current_tag=name
self.in_quote=1
#结束,插入数据库
defendElement(self,name):
#以person结尾代表读取一个person的信息结束
ifname=="person":
#dosomething
in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields])
printin_sql%in_fields
db_ops.insert(in_sql%(in_fields))
#处理
self.in_quote=0
defcharacters(self,content):
#若是在tag之间的内容,更新到map中
ifself.in_quote:
self.person.update({self.current_tag:content})
if__name__=="__main__":
f=open("./person.xml")
#如果源文件gbk转码若是utf-8,去掉decode.encode
db_ops=Db_Connect("127.0.0.1","root","root","test")
parseString(f.read().decode("gbk").encode("utf-8"),PersonHandler(db_ops))
f.close()
db_ops.close()
平时拿python来分析数据,工具脚本还有hadoopstreamming,但是用的面和深度实在欠缺只能说道行还浅,需要多多实践