Python通过DOM和SAX方式解析XML的应用实例分享
XML.DOM
需求
有一个表,里面数据量比较大,每天一更新,其字段可以通过xml配置文件进行配置,即,可能每次建表的字段不一样。
上游跑时会根据配置从源文件中提取,到入库这一步需要根据配置进行建表。
解决
写了一个简单的xml,配置需要字段及类型
上游读取到对应的数据
入库这一步,先把原表删除,根据配置建新表
XML文件
<?xmlversion="1.0"encoding="UTF-8"?> <!--表名,数据库名可灵活配置插入哪个库哪个表--> <tablename="top_query"db_name="evaluting_sys"> <!--非业务主键,自增长,可配名,其他INTEGERUNSIGNEDAUTO_INCREMENT--> <primary_key> <name>id</name> </primary_key> <!--字段开始--> <field> <name>query</name> <type>varchar(200)</type> <is_index>false</is_index> <description>query</description> </field> <field> <name>pv</name> <type>integer</type> <is_index>false</is_index> <description>pv</description> </field> <field> <name>avg_money</name> <type>integer</type> <is_index>false</is_index> <description></description> </field> <!--字段配置结束--> </table>
处理脚本
#!/usr/bin/python #-*-coding:utf-8-*- #author:wklken #desc:usetoreaddbxmlconfig. #----------------------- #2012-02-18created #---------------------- importsys,os fromxml.domimportminidom,Node defread_dbconfig_xml(xml_file_path): content={} root=minidom.parse(xml_file_path) table=root.getElementsByTagName("table")[0] #readdbnameandtablename. table_name=table.getAttribute("name") db_name=table.getAttribute("db_name") iflen(table_name)>0andlen(db_name)>0: db_sql="createdatabaseifnotexists`"+db_name+"`;use"+db_name+";" table_drop_sql="drop"+table_name+"ifexists"+table_name+";" content.update({"db_sql":db_sql}) content.update({"table_sql":table_drop_sql}) else: print"Error:attributeisnotdefinewell!db_name="+db_name+";table_name="+table_name sys.exit(1) #printtable_name,db_name table_create_sql="createtable"+table_name+"(" #readprimarycell primary_key=table.getElementsByTagName("primary_key")[0] primary_key_name=primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue table_create_sql+=primary_key_name+"INTEGERNOTNULLAUTO_INCREMENTPRIMARYKEY," #printprimary_key.toxml() #readordernaryfield fields=table.getElementsByTagName("field") f_index=0 forfieldinfields: f_index+=1 name=field.getElementsByTagName("name")[0].childNodes[0].nodeValue type=field.getElementsByTagName("type")[0].childNodes[0].nodeValue table_create_sql+=name+""+type iff_index!=len(fields): table_create_sql+="," is_index=field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue table_create_sql+=");" content.update({"table_create_sql":table_create_sql}) #charactersetlatin1collatelatin1_danish_ci; printcontent if__name__=="__main__": read_dbconfig_xml(sys.argv[1])
涉及方法
root=minidom.parse(xml_file_path)获取dom对象
root.getElementsByTagName("table")根据tag获取节点列表
table.getAttribute("name")获取属性
primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue获取子节点的值(id得到id)
SAX
需求
读取xml数据文件,文件较大,需要实时处理插入到数据库
xml文档
<PERSONS> <person> <id>100000</id> <sex>男</sex> <address>北京,海淀区</address> <fansNum>437</fansNum> <summary>1989</summary> <wbNum>333</wbNum> <gzNum>242</gzNum> <blog>null</blog> <edu>大学</edu> <work></work> <renZh>1</renZh> <brithday>2月14日</brithday> </person> </PERSONS>
处理
sax处理时并不会像dom一样可以以类似节点的维度进行读取,它只有开始标签内容结束标签之分
处理思想是:通过一个handler,对开始标签,内容,结束标签各有一个处理函数
代码及注解
person处理类
fromxml.saximporthandler,parseString classPersonHandler(handler.ContentHandler): def__init__(self,db_ops): #dbopobj self.db_ops=db_ops #存储一个person的map self.person={} #当前的tag self.current_tag="" #是否是tag之间的内容,目的拿到tag间内容,不受空白的干扰 self.in_quote=0 #开始,清空map defstartElement(self,name,attr): #以person,清空map ifname=="person": self.person={} #记录状态 self.current_tag=name self.in_quote=1 #结束,插入数据库 defendElement(self,name): #以person结尾代表读取一个person的信息结束 ifname=="person": #dosomething in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields]) printin_sql%in_fields db_ops.insert(in_sql%(in_fields)) #处理 self.in_quote=0 defcharacters(self,content): #若是在tag之间的内容,更新到map中 ifself.in_quote: self.person.update({self.current_tag:content})
加上入库的完整代码
#!/usr/bin/python #-*-coding:utf-8-*- #parse_person.py #version:0.1 #author:wukunliang@163.com #desc:parseperson.xmlandoutsql importsys,os importMySQLdb reload(sys) sys.setdefaultencoding('utf-8') in_sql="insertintoperson(id,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday)values(%s,%s,%s,%s,%s,%s, %s,%s,%s,%s,%s,%s)" fields=("id","sex","address","fansNum","summary","wbNum","gzNum","blog","edu","work","renZh","brithday") #数据库方法 classDb_Connect: def__init__(self,db_host,user,pwd,db_name,charset="utf8",use_unicode=True): print"initbegin" printdb_host,user,pwd,db_name,charset,use_unicode self.conn=MySQLdb.Connection(db_host,user,pwd,db_name,charset=charset,use_unicode=use_unicode) print"initend" definsert(self,sql): try: n=self.conn.cursor().execute(sql) returnn exceptMySQLdb.Warning,e: print"Error:executesql'",sql,"'failed" defclose(self): self.conn.close() #person处理类 fromxml.saximporthandler,parseString classPersonHandler(handler.ContentHandler): def__init__(self,db_ops): #dbopobj self.db_ops=db_ops #存储一个person的map self.person={} #当前的tag self.current_tag="" #是否是tag之间的内容 self.in_quote=0 #开始,清空map defstartElement(self,name,attr): #以person,清空map ifname=="person": self.person={} #记录状态 self.current_tag=name self.in_quote=1 #结束,插入数据库 defendElement(self,name): #以person结尾代表读取一个person的信息结束 ifname=="person": #dosomething in_fields=tuple([('"'+self.person.get(i,"")+'"')foriinfields]) printin_sql%in_fields db_ops.insert(in_sql%(in_fields)) #处理 self.in_quote=0 defcharacters(self,content): #若是在tag之间的内容,更新到map中 ifself.in_quote: self.person.update({self.current_tag:content}) if__name__=="__main__": f=open("./person.xml") #如果源文件gbk转码若是utf-8,去掉decode.encode db_ops=Db_Connect("127.0.0.1","root","root","test") parseString(f.read().decode("gbk").encode("utf-8"),PersonHandler(db_ops)) f.close() db_ops.close()
平时拿python来分析数据,工具脚本还有hadoopstreamming,但是用的面和深度实在欠缺只能说道行还浅,需要多多实践