在Python中使用SimpleParse模块进行解析的教程

2024-04-02 07:05:04 383

与大多数程序员一样，我经常需要标识存在于文本文档中的部件和结构，这些文档包括：日志文件、配置文件、分隔的数据以及格式更自由的（但还是半结构化的）报表格式。所有这些文档都拥有它们自己的“小语言”，用于规定什么能够出现在文档内。

我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩，其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样：“读一些文本，弄清是否可以用它来做些什么，然后可能再多读一些文本，一直尝试下去。”

各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和说明性的规则，该规则规定了如何标识文档的组成部分。这里，说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格：读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的，程序流的方法风格相对来说容易出错并且难以维护。

正式解析器几乎总是使用扩展巴科斯范式（ExtendedBackus-NaurForm(EBNF)）上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的，流行的编译器开发工具YACC（及其变体）也是这样做的。基本上，EBNF语法对您可能在文档中找到的部件赋予名称；另外，经常将较小的部件组成较大的部件。由运算符―通常和您在正则表达式中看到的符号相同―来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈（parser-talk）中，语法中每个命名的部件称为一个“产品（production）”。

可能读者甚至还不知道EBNF，却已经看到过运行的EBNF描述了。例如，大家熟悉的Python语言参考大全（PythonLanguageReference）定义了浮点数在Python中是什么样子：
EBNF样式的浮点数描述

或者您可能见过以EBNF样式定义的XMLDTD元素。例如，developerWorks教程的<body>类似于：
developerWorksDTD中EBNF样式的描述

<!ELEMENTbody ((example-column|image-column)?,text-column)>

拼写稍有不同，但是量化、交替和定序这些一般概念都存在于所有EBNF样式的语言语法中。
使用SimpleParse构建标记列表

SimpleParse是一个有趣的工具。要使用这个模块，您需要底层模块mxTextTools，它用C实现了一个“标记引擎”。mxTextTools（请参阅本文后面的参考资料）的功能强大，但是相当难用。一旦在mxTextTools上放置了SimpleParse后，工作就简单多了。

使用SimpleParse确实很简单，因为不需要考虑mxTextTools的大部分复杂性。首先，应该创建一种EBNF样式的语法，用来描述要处理的语言。第二步是调用mxTextTools来创建一个标记列表，当语法应用于文档时，该列表描述所有成功的产品。最后，使用mxTextTools返回的标记列表来进行实际操作。

对于本文，我们要解析的“语言”是“智能ASCII”所使用的一组标记代码，这些代码用来表示诸如黑体、模块名以及书籍标题之类的内容。这就是先前使用mxTextTools来标识的同一种语言，在先前的部分中，使用正则表达式和状态机。该语言比完整的编程语言简单得多，但已经足够复杂而有代表性。

这里，我们可能需要回顾一下。mxTextTools提供给我们的“标记列表”是什么东西？这基本上是一个嵌套结构，它只是给出了每个产品在源文本中匹配的字符偏移量。mxTextTools快速遍历源文本，但是它不对源文本本身做任何操作（至少当使用SimpleParse语法时不进行任何操作）。让我们研究一个简化的标记列表：
从SimpleParse语法生成的标记列表

(1,
[('plain',
0,
15,
[('word',0,4,[('alphanums',0,4,[])]),
('whitespace',4,5,[]),
('word',5,10,[('alphanums',5,10,[])]),
('whitespace',10,11,[]),
('word',11,14,[('alphanums',11,14,[])]),
('whitespace',14,15,[])]),
('markup',
15,
27,
...
289)

中间的省略号表示了一批更多的匹配。但是我们看到的部分叙述了下列内容。根产品（“para”）取得成功并结束于偏移量289处（源文本的长度）。子产品“plain”的偏移量为0到15。“plain”子产品本身由更小的产品组成。在“plain”产品之后，“markup”产品的偏移量为15到27。这里省略了详细信息，但是第一个“markup”由组件组成，并且源文本中稍后还有另外的产品取得成功。

“智能ASCII”的EBNF样式的语法

我们已经浏览了SimpleParse+mxTextTools所能提供的标记列表。但是我们确实需要研究用来生成这个标记列表的语法。实际工作在语法中发生。EBNF语法读起来几乎不需加以说明（尽管确实需要一点思考和测试来设计一个语法）：
typographify.def

para:=(plain/markup)+
plain:=(word/whitespace/punctuation)+
whitespace:=[\t\r\n]+
alphanums:=[a-zA-Z0-9]+
word:=alphanums,(wordpunct,alphanums)*,contraction?
wordpunct:=[-_]
contraction:="'",('am'/'clock'/'d'/'ll'/'m'/'re'/'s'/'t'/'ve')
markup:=emph/strong/module/code/title
emph:='-',plain,'-'
strong:='*',plain,'*'
module:='[',plain,']'
code:="'",plain,"'"
title:='_',plain,'_'
punctuation:=(safepunct/mdash)
mdash:='--'
safepunct:=[!@#$%^&()+=|\{}:;<>,.?/"]

这种语法和您口头描述“智能ASCII”的方式几乎完全相同，非常清晰。段落由一些纯文本和一些标记文本组成。纯文本由某些字、空白和标点符号的集合组成。标记文本可能是强调文本、着重强调文本或模块名等等。着重强调文本由星号环绕。标记文本就是由诸如此类的部分组成的。需要考虑的是几个特性，类似于到底什么是“字”，或者可以用什么符号结束缩写，但是EBNF的句法不会成为障碍。

相比之下，使用正则表达式可以更精练地描述同类规则。“智能ASCII”标记程序的第一个版本就是这样做的。但是编写这种精练难度大得多，并且以后调整也更为困难。下列代码表示了很大程度上（但不精确地）相同的规则集：
智能ASCII的Pythonregexs

#[module]names

re_mods=
r""'([\(\s'/">]|^)\[(.*?)\]([<\s\.\),:;'"?!/-])"""
#*stronglyemphasize*words

re_strong=
r""'([\(\s'/"]|^)\*(.*?)\*([\s\.\),:;'"?!/-])"""
#-emphasize-words

re_emph=
r""'([\(\s'/"]|^)-(.*?)-([\s\.\),:;'"?!/])"""
#_BookTitle_citations

re_title=
r""'([\(\s'/"]|^)_(.*?)_([\s\.\),:;'"?!/-])"""
#'Function()"names

re_funcs=
r""'([\(\s/"]|^)'(.*?)'([\s\.\),:;"?!/-])"""

如果您发现或发明了该语言的某种经过微小更新的变体，将它和EBNF语法一起使用要比和那些正则表达式一起使用简单得多。此外，通常使用mxTextTools执行模式操作甚至更快些。

生成和使用标记列表

对于样本程序，我们将实际语法放置在一个单独的文件中。对于大多数用途而言，这种组织比较好，便于使用。通常，更改语法和更改应用程序逻辑是不同种类的任务；这些文件反映了这一点。但是我们对语法所做的全部处理就是将它作为一个字符串传递给SimpleParse函数，因此我们大体上可以将它包括到主应用程序中（或者甚至以某种方式动态生成它）。

让我们研究完整的（简化）标记应用程序：
typographify.py

import
os
from
sys
import
stdin,stdout,stderr
from
simpleparse
import
generator
from
mx.TextTools
import
TextTools
input=stdin.read()
decl=open(
'typographify.def'
).read()
from
typo_html
import
codes
parser=generator.buildParser(decl).parserbyname(
'para'
)
taglist=TextTools.tag(input,parser)
for
tag,beg,end,parts
in
taglist[1]:

if
tag==
'plain'
:
stdout.write(input[beg:end])

elif
tag==
'markup'
:
markup=parts[0]
mtag,mbeg,mend=markup[:3]
start,stop=codes.get(mtag,(
'<!--unknown-->'
,
'<!--/-->'
))
stdout.write(start+input[mbeg+1:mend-1]+stop)
stderr.write(
'parsed%scharsof%s\n'
%(taglist[-1],len(input)))

这就是它所做的。首先读入语法，然后根据语法创建一个mxTextTools解析器。接下来，我们将标记表／解析器应用于输入源来创建一个标记列表。最后，我们循环遍历标记列表，并且发出一些新的标记文本。当然，该循环可以对遇到的每个产品做我们所期望的任何其它事情。

由于智能ASCII所使用的特殊语法，源文本中的任何内容都可归类于“plain”产品或“markup”产品。因此，对于循环遍历标记列表中的单个级别，它已经足够了（除非我们正好寻找比特定标记产品级别低一级的级别，譬如“title”）。但是格式更自由的语法―譬如出现在大多数编程语言中的语法―可以轻松地在标记列表中向下递归，并在每个级别上寻找产品名称。例如，如果一种语法中允许嵌套标记代码，或许可以使用这种递归风格。您可能会喜欢弄清如何调整语法的练习（提示：请记住允许各产品彼此递归）。

转至输出的特殊标记代码还是存储到另一个文件中了，这是由于组织的原因而非本质原因。在这里我们使用了一个技巧，就是用一个字典作为一个switch语句（尽管示例中的otherwise情况还是太狭窄了）。这个想法就是：将来我们可能希望创建多种“输出格式”的文件，比如说HTML、DocBook、LaTeX或者其它格式。用于示例的特殊标记文件类似于：
typo_html.py

codes=\
{
'emph'
:(
'<em>'
,
'</em>'
),

'strong'
:(
'<strong>'
,
'</strong>'
),

'module'
:(
'<em><code>'
,
'</code></em>'
),

'code'
:(
'<code>'
,
'</code>'
),

'title'
:(
'<cite>'
,
'</cite>'
),
}

把这种格式扩展到其它输出格式很简单。

结束语

SimpleParse为含义模糊的mxTextToolsC模块的基本功能和速度提供了一种简明的并且十分易读的EBNF样式的封装器。此外，即使只是顺便学会的，许多程序员也已经相当熟悉EBNF语法了。关于什么更容易理解，我不能提供证明―这一点因各人的直觉而异―但是我可以根据源代码长度给出量化评估。先前手工开发的mxTypographify模块的大小如下：

wcmxTypographify.py

199 776 7041mxTypographify.py

这199行中，相当数量的行是注释。这些行中有18行是标记函数所包含的正则表达式版本，包含该标记函数是用于计时比较。但是该程序的功能基本上和上面列出的typographify.py的功能相同。相比之下，我们的SimpleParse程序，包括其支持文件在内，大小如下：

wctypo*.deftypo*.py

19 79 645typographify.def 20 79 721typographify.py 6 25 205typo_html.py 45 183 1571total

在Python中使用SimpleParse模块进行解析的教程

热门推荐

随机推荐