在Python中使用SimpleParse模块进行解析的教程
与大多数程序员一样,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式。所有这些文档都拥有它们自己的“小语言”,用于规定什么能够出现在文档内。
我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩,其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样:“读一些文本,弄清是否可以用它来做些什么,然后可能再多读一些文本,一直尝试下去。”
各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和说明性的规则,该规则规定了如何标识文档的组成部分。这里,说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格:读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的,程序流的方法风格相对来说容易出错并且难以维护。
正式解析器几乎总是使用扩展巴科斯范式(ExtendedBackus-NaurForm(EBNF))上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的,流行的编译器开发工具YACC(及其变体)也是这样做的。基本上,EBNF语法对您可能在文档中找到的部件赋予名称;另外,经常将较小的部件组成较大的部件。由运算符―通常和您在正则表达式中看到的符号相同―来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈(parser-talk)中,语法中每个命名的部件称为一个“产品(production)”。
可能读者甚至还不知道EBNF,却已经看到过运行的EBNF描述了。例如,大家熟悉的Python语言参考大全(PythonLanguageReference)定义了浮点数在Python中是什么样子:
EBNF样式的浮点数描述
floatnumber: pointfloat|exponentfloat
pointfloat: [intpart]fraction|intpart"."
exponentfloat: (nonzerodigitdigit*|pointfloat)exponent
intpart: nonzerodigitdigit*|"0"
fraction: "."digit+
exponent: ("e"|"E")["+"|"-"]digit+
或者您可能见过以EBNF样式定义的XMLDTD元素。例如,developerWorks教程的<body>类似于:
developerWorksDTD中EBNF样式的描述
<!ELEMENTbody ((example-column|image-column)?,text-column)>
拼写稍有不同,但是量化、交替和定序这些一般概念都存在于所有EBNF样式的语言语法中。
使用SimpleParse构建标记列表
SimpleParse是一个有趣的工具。要使用这个模块,您需要底层模块mxTextTools,它用C实现了一个“标记引擎”。mxTextTools(请参阅本文后面的参考资料)的功能强大,但是相当难用。一旦在mxTextTools上放置了SimpleParse后,工作就简单多了。
使用SimpleParse确实很简单,因为不需要考虑mxTextTools的大部分复杂性。首先,应该创建一种EBNF样式的语法,用来描述要处理的语言。第二步是调用mxTextTools来创建一个标记列表,当语法应用于文档时,该列表描述所有成功的产品。最后,使用mxTextTools返回的标记列表来进行实际操作。
对于本文,我们要解析的“语言”是“智能ASCII”所使用的一组标记代码,这些代码用来表示诸如黑体、模块名以及书籍标题之类的内容。这就是先前使用mxTextTools来标识的同一种语言,在先前的部分中,使用正则表达式和状态机。该语言比完整的编程语言简单得多,但已经足够复杂而有代表性。
这里,我们可能需要回顾一下。mxTextTools提供给我们的“标记列表”是什么东西?这基本上是一个嵌套结构,它只是给出了每个产品在源文本中匹配的字符偏移量。mxTextTools快速遍历源文本,但是它不对源文本本身做任何操作(至少当使用SimpleParse语法时不进行任何操作)。让我们研究一个简化的标记列表:
从SimpleParse语法生成的标记列表
(1, [('plain', 0, 15, [('word',0,4,[('alphanums',0,4,[])]), ('whitespace',4,5,[]), ('word',5,10,[('alphanums',5,10,[])]), ('whitespace',10,11,[]), ('word',11,14,[('alphanums',11,14,[])]), ('whitespace',14,15,[])]), ('markup', 15, 27, ... 289)
中间的省略号表示了一批更多的匹配。但是我们看到的部分叙述了下列内容。根产品(“para”)取得成功并结束于偏移量289处(源文本的长度)。子产品“plain”的偏移量为0到15。“plain”子产品本身由更小的产品组成。在“plain”产品之后,“markup”产品的偏移量为15到27。这里省略了详细信息,但是第一个“markup”由组件组成,并且源文本中稍后还有另外的产品取得成功。
“智能ASCII”的EBNF样式的语法
我们已经浏览了SimpleParse+mxTextTools所能提供的标记列表。但是我们确实需要研究用来生成这个标记列表的语法。实际工作在语法中发生。EBNF语法读起来几乎不需加以说明(尽管确实需要一点思考和测试来设计一个语法):
typographify.def
para:=(plain/markup)+ plain:=(word/whitespace/punctuation)+ whitespace:=[\t\r\n]+ alphanums:=[a-zA-Z0-9]+ word:=alphanums,(wordpunct,alphanums)*,contraction? wordpunct:=[-_] contraction:="'",('am'/'clock'/'d'/'ll'/'m'/'re'/'s'/'t'/'ve') markup:=emph/strong/module/code/title emph:='-',plain,'-' strong:='*',plain,'*' module:='[',plain,']' code:="'",plain,"'" title:='_',plain,'_' punctuation:=(safepunct/mdash) mdash:='--' safepunct:=[!@#$%^&()+=|\{}:;<>,.?/"]
这种语法和您口头描述“智能ASCII”的方式几乎完全相同,非常清晰。段落由一些纯文本和一些标记文本组成。纯文本由某些字、空白和标点符号的集合组成。标记文本可能是强调文本、着重强调文本或模块名等等。着重强调文本由星号环绕。标记文本就是由诸如此类的部分组成的。需要考虑的是几个特性,类似于到底什么是“字”,或者可以用什么符号结束缩写,但是EBNF的句法不会成为障碍。
相比之下,使用正则表达式可以更精练地描述同类规则。“智能ASCII”标记程序的第一个版本就是这样做的。但是编写这种精练难度大得多,并且以后调整也更为困难。下列代码表示了很大程度上(但不精确地)相同的规则集:
智能ASCII的Pythonregexs
#[module]names re_mods= r""'([\(\s'/">]|^)\[(.*?)\]([<\s\.\),:;'"?!/-])""" #*stronglyemphasize*words re_strong= r""'([\(\s'/"]|^)\*(.*?)\*([\s\.\),:;'"?!/-])""" #-emphasize-words re_emph= r""'([\(\s'/"]|^)-(.*?)-([\s\.\),:;'"?!/])""" #_BookTitle_citations re_title= r""'([\(\s'/"]|^)_(.*?)_([\s\.\),:;'"?!/-])""" #'Function()"names re_funcs= r""'([\(\s/"]|^)'(.*?)'([\s\.\),:;"?!/-])"""
如果您发现或发明了该语言的某种经过微小更新的变体,将它和EBNF语法一起使用要比和那些正则表达式一起使用简单得多。此外,通常使用mxTextTools执行模式操作甚至更快些。
生成和使用标记列表
对于样本程序,我们将实际语法放置在一个单独的文件中。对于大多数用途而言,这种组织比较好,便于使用。通常,更改语法和更改应用程序逻辑是不同种类的任务;这些文件反映了这一点。但是我们对语法所做的全部处理就是将它作为一个字符串传递给SimpleParse函数,因此我们大体上可以将它包括到主应用程序中(或者甚至以某种方式动态生成它)。
让我们研究完整的(简化)标记应用程序:
typographify.py
import os from sys import stdin,stdout,stderr from simpleparse import generator from mx.TextTools import TextTools input=stdin.read() decl=open( 'typographify.def' ).read() from typo_html import codes parser=generator.buildParser(decl).parserbyname( 'para' ) taglist=TextTools.tag(input,parser) for tag,beg,end,parts in taglist[1]: if tag== 'plain' : stdout.write(input[beg:end]) elif tag== 'markup' : markup=parts[0] mtag,mbeg,mend=markup[:3] start,stop=codes.get(mtag,( '<!--unknown-->' , '<!--/-->' )) stdout.write(start+input[mbeg+1:mend-1]+stop) stderr.write( 'parsed%scharsof%s\n' %(taglist[-1],len(input)))
这就是它所做的。首先读入语法,然后根据语法创建一个mxTextTools解析器。接下来,我们将标记表/解析器应用于输入源来创建一个标记列表。最后,我们循环遍历标记列表,并且发出一些新的标记文本。当然,该循环可以对遇到的每个产品做我们所期望的任何其它事情。
由于智能ASCII所使用的特殊语法,源文本中的任何内容都可归类于“plain”产品或“markup”产品。因此,对于循环遍历标记列表中的单个级别,它已经足够了(除非我们正好寻找比特定标记产品级别低一级的级别,譬如“title”)。但是格式更自由的语法―譬如出现在大多数编程语言中的语法―可以轻松地在标记列表中向下递归,并在每个级别上寻找产品名称。例如,如果一种语法中允许嵌套标记代码,或许可以使用这种递归风格。您可能会喜欢弄清如何调整语法的练习(提示:请记住允许各产品彼此递归)。
转至输出的特殊标记代码还是存储到另一个文件中了,这是由于组织的原因而非本质原因。在这里我们使用了一个技巧,就是用一个字典作为一个switch语句(尽管示例中的otherwise情况还是太狭窄了)。这个想法就是:将来我们可能希望创建多种“输出格式”的文件,比如说HTML、DocBook、LaTeX或者其它格式。用于示例的特殊标记文件类似于:
typo_html.py
codes=\ { 'emph' :( '<em>' , '</em>' ), 'strong' :( '<strong>' , '</strong>' ), 'module' :( '<em><code>' , '</code></em>' ), 'code' :( '<code>' , '</code>' ), 'title' :( '<cite>' , '</cite>' ), }
把这种格式扩展到其它输出格式很简单。
结束语
SimpleParse为含义模糊的mxTextToolsC模块的基本功能和速度提供了一种简明的并且十分易读的EBNF样式的封装器。此外,即使只是顺便学会的,许多程序员也已经相当熟悉EBNF语法了。关于什么更容易理解,我不能提供证明―这一点因各人的直觉而异―但是我可以根据源代码长度给出量化评估。先前手工开发的mxTypographify模块的大小如下:
wcmxTypographify.py
199 776 7041mxTypographify.py
这199行中,相当数量的行是注释。这些行中有18行是标记函数所包含的正则表达式版本,包含该标记函数是用于计时比较。但是该程序的功能基本上和上面列出的typographify.py的功能相同。相比之下,我们的SimpleParse程序,包括其支持文件在内,大小如下:
wctypo*.deftypo*.py
19 79 645typographify.def 20 79 721typographify.py 6 25 205typo_html.py 45 183 1571total