编译技术



1 词法分析(lexical analysis)

1.1 串和语言

字母表(alphabet):符号的有限集合 Σ\Sigma
:符号的有穷序列
语言:字母表上的一个串集

1.2 正规式(Regular Expression)

正规式 定义的语言
ε {ε}
a {a}
(r)|(s) L(r)∪L(s)
(r)(s) L(r)L(s)
(r)* (L(r))*
(r) L(r)

运算符优先级:* > 连接运算 > |

1.3 有限自动机

1.3.1 确定的有限自动机(DFA)

1.3.2 不确定的有限自动机(NFA)

1.3.3 NFA -> DFA(子集构造法)

1.3.4 DFA 的化简

DFA 是否最简的判断依据:状态的可区分性.

对于 DFA MM,如果存在串 ww,使得 MM 从状态 ss 出发,在面临 ww 时,最终停在一个接受状态,而从状态 tt 出发,在面临 ww 时,却最终停在一个非接受状态,则称串 ww 可用来区别状态 ss 和状态 tt

如果找不到任何的串来区别 sstt,则称状态 ss 和状态 tt 是不可区别的,反之则称状态 ss 和状态 tt 是可区别的。

DFA 化简步骤(要求 movemove 是全函数,为此可先给 DFA 增加死状态,化简后再去除):

1.4 词法分析器的生成器(Lex)

2 语法分析

2.1 语言和文法

一个 0 型文法短语文法GG 是一个四元组 (VT,VN,S,P)(V_{T}, V_{N}, S, P),其中:

0 型文法 GG1 型文法上下文有关文法),如果 GG 的任何产生式 αβ\alpha \rightarrow \beta 或者满足 αβ|\alpha| \le |\beta|,或者形如 SεS \rightarrow \varepsilon,且 SS 没有出现在任何产生式的右部;

0 型文法 GG2 型文法上下文无关文法),如果 GG 的任何产生式都形如 AαA \rightarrow \alpha,其中 AVN,α(VTVN)A \in V_{N}, \alpha \in (V_{T} \cup V_{N})^{*}

0 型文法 GG3 型文法正规文法),如果 GG 的任何产生式都形如 AaBA \rightarrow aBAaA \rightarrow a,其中 A,BVN,aVTA, B \in V_{N}, a \in V_{T}

后面均只涉及上下文无关文法,因此将其简称为文法。

2.2 上下文无关文法

定义见上文。

2.2.1 消除左递归

直接左递归 AAαβA \rightarrow A\alpha | \beta 可以用非左递归的

来代替。

而非直接左递归

则可先变换成直接左递归

再消除左递归

2.2.2 提取左因子

文法 Aαβ1αβ2A \rightarrow \alpha \beta_{1} | \alpha \beta_{2} 可替换为

2.3 自上而下分析

要求:

2.3.1 FIRSTFIRST 集和 FOLLOWFOLLOW

一个文法符号串α\alpha 的开始符号集合 FIRST(α)FIRST(\alpha) 是从 α\alpha 推导出的串的起始终结符的集合:

FIRST(α)={aαa,aVT}FIRST(\alpha) = \left\{ a | \alpha \Rightarrow^{*} a \dots, a \in V_{T} \right\}

特别地,当 αε\alpha \Rightarrow^{*} \varepsilon 时,规定 εFIRST(α)\varepsilon \in FIRST(\alpha)

非终结符 AA 的后继符号集合 FOLLOW(A)FOLLOW(A) 是所有在句型中可以直接出现在 AA 后面的终结符集合:

FOLLOW(A)={aSAa,aVT}FOLLOW(A) = \left\{ a | S \Rightarrow^{*} \dots A a \dots, a \in V_{T} \right\}

约定如果 AA 是某个句型的最右符号(即 SaAS \Rightarrow^{*} aA),那么 $\$ 也属于 FOLLOW(A)FOLLOW(A)

FIRSTFIRST 集的计算方法

FOLLOWFOLLOW 集的计算方法

2.3.2 LL(1)LL(1) 文法

若文法 GG 满足,对于文法的任何两个产生式 AαβA \rightarrow \alpha | \beta,都有

则称文法 GGLL(1)LL(1) 文法。

2.3.3 递归下降的预测分析

计算 SELECTSELECT 集:给定上下文无关文法的产生式 AαA \rightarrow \alpha, 若 α\alpha 不能推导出 ε\varepsilon,则 SELECT(Aα)=FIRST(α)SELECT(A \rightarrow \alpha) = FIRST(\alpha);若 α\alpha 能推导出 ε\varepsilon,则 SELECT(Aα)=(FIRST(α)\{ε})FOLLOW(A)SELECT(A \rightarrow \alpha) = \left( FIRST(\alpha) \backslash \left\{\varepsilon \right\}\right) \cup FOLLOW(A)

为每一个非终结符写一个分析过程。

2.3.4 非递归的预测分析

表驱动的预测分析器有一个输入缓冲区、一个栈、一张分析表和一个输出流。输入缓冲区包含被分析的串 ww,后面跟一个符号 $\$ 作为输入串的结束标记;栈中存放文法符号串,栈底符号是 $\$;分析表 MM 是一个二维数组 M[A,a]M[A,a]AA 是非终结符,aa 是终结符或 $\$

初始时,$S\$S 在栈中,其中 SS 是开始符号且在栈顶,w$w\$ 在输入缓冲区中,输入指针指向 w$w\$ 的第一个符号。

预测分析器根据当前的栈顶符号 XX 和输入符号 aa 来决定分析器的动作,有四种可能:

  1. 如果 X=a=$X=a=\$,分析器宣布分析完全成功而停机;
  2. 如果 X=a$X=a\ne\$,分析器弹出栈顶符号 XX,并推进输入指针使其指向下一个符号;
  3. 如果 XX 是非终结符,且 M[X,a]M[X,a]XX 的产生式,即 M[X,a]=XY1Y2YkM[X,a] = X \rightarrow Y_{1}Y_{2} \dots Y_{k},则分析器弹出栈顶符号 XX,并把 YkYk1Y1Y_{k}Y_{k-1} \dots Y_{1} 依次压入栈,使 Y1Y_{1} 在栈顶;
  4. 其他情况,出错。

预测分析表 MM 的构建

对于文法的每个产生式 AαA \rightarrow \alpha,执行:

  1. FIRST(α)FIRST(\alpha) 的每个终结符 aa,把 AαA \rightarrow \alpha 加入 M[A,a]M[A, a] 中;
  2. 如果 εFIRST(α)\varepsilon \in FIRST(\alpha),对 FOLLOW(A)FOLLOW(A) 中的每个终结符 bb(包括 $\$),把 AαA \rightarrow \alpha 加入 M[A,b]M[A, b] 中。

这等价于:

对于文法的每个产生式 AαA \rightarrow \alpha,对所有的 aSELECT(Aα)a \in SELECT(A \rightarrow \alpha),把 AαA \rightarrow \alpha 加入 M[A,a]M[A, a] 中。

2.3.5 预测分析的错误恢复

紧急方式的错误恢复:发现错误时,分析器每次抛弃一个输入记号,直到输入记号属于某个特定的同步记号集合为止。

2.4 自下而上分析

2.4.1 LRLR 分析器

右句型:最右推导可得到的句型

句柄:右句型 γ\gamma句柄是一个产生式 AβA \rightarrow \beta 的右部 β\beta 以及 γ\gamma 中的一个位置,在这个位置可找到串 β\beta,且用 AA 替换这里的 β\beta 得到最右推导的前一个右句型。

  1. 句柄是句型的一个子串;
  2. 把句柄归约成非终结符代表了某一步最右推导的逆过程。

LRLR 分析器包含一个输入缓冲区、一个栈、一张分析表和一个输出流,其中:

  1. 输入缓冲区包含以 $\$ 结束的被分析的串 w$w\$
  2. 栈中存放过去的状态符号和文法符号(真正实现时文法符号不是必需的),栈底符号是 $\$
  3. 分析表 MM 由两部分组成:动作表 actionaction 和转移表 gotogoto

LRLR 分析器根据栈顶的状态和当前的输入符号检索分析表 MM 以决定接下来的动作。具体地将,分析器根据栈顶状态 ss 和当前的输入符号 aa 访问 action[s,a]action[s, a],并执行相应的动作:

  1. action[s,a]=action[s, a] = 移进 tt,则分析器执行移进动作,将当前输入符号 aa 和状态 tt 压入栈,并移动输入指针使其指向下一个输入符号;
  2. action[s,a]=action[s, a] = 归约 AβA \rightarrow \beta,则分析器执行归约动作,从栈中弹出 2r2r 个符号(其中 rrβ\beta 的长度),即弹出 rr 个文法符号和 rr 个状态符号(这 rr 个文法符号恰好构成 β\beta),此时栈顶暴露出过去的某个状态 tt。分析器接下来访问 gotogoto 表,把产生式左部的文法符号 AA 和新状态 goto[t,A]goto[t, A] 压入栈(注意当前输入符号没有改变)。
  3. action[s,a]=action[s, a] = 接受,则分析成功完成;
  4. action[s,a]=action[s, a] = 出错,则分析器发现错误。

LRLR 分析方法的特点

  1. 栈中的文法符号总是形成一个活前缀;
  2. 分析表的转移表本质上是识别活前缀的 DFA。

2.4.2 构造 SLRSLR 分析表

项目:文法 GGLR(0)LR(0) 项目(简称项目)是在其产生式右部的某个地方加点的产生式。如从产生式 AXYZA \rightarrow XYZ 可得到如下四个项目:

AXYZAXYZAXYZAXYZA \rightarrow \boldsymbol{\cdot} X Y Z \\ A \rightarrow X \boldsymbol{\cdot} Y Z \\ A \rightarrow X Y \boldsymbol{\cdot} Z \\ A \rightarrow X Y Z \boldsymbol{\cdot} \\

规定对于产生式 AεA \rightarrow \varepsilon,只能得到项目 AA \rightarrow \boldsymbol{\cdot}

拓广文法:如果文法 GG 的开始符号是 SS,那么 GG拓广文法 GG' 是在 GG 的基础上增加新的文法符号 SS' 和产生式 SSS' \rightarrow S

闭包函数 closureclosure:如果 II 是文法 GG 的一个项目集,那么 closure(I)closure(I) 是应用如下两条规则从 II 构造的项目集:

  1. 初始时,将 II 的每个项目都加入 closure(I)closure(I)
  2. 如果 AαBβA \rightarrow \alpha \boldsymbol{\cdot} B \betaclosure(I)closure(I) 中,且 BγB \rightarrow \gamma 是产生式,则将 BγB \rightarrow \boldsymbol{\cdot} \gamma 加入 closure(I)closure(I) 中。反复应用此规则,直到没有新的项目加入 closure(I)closure(I) 为止。

转移函数 gotogoto:如果 II 是文法 GG 的一个项目集,XX 是文法符号,goto(I,X)goto(I, X) 是满足 AαXβA \rightarrow \alpha \boldsymbol{\cdot} X \beta 属于 II 的所有项目 AαXβA \rightarrow \alpha X \boldsymbol{\cdot} \beta 的集合的闭包。

项目集规范族:拓广文法 GG'LR(0)LR(0) 项目集规范族 C={I0,I1,,In}C = \left\{I_{0}, I_{1}, \dots, I_{n} \right\} 是项目集的集合,其构建方法如下:

  1. 将项目集 closure({SS})closure(\left\{S \rightarrow \boldsymbol{\cdot} S \right\}) 加入 CC 中;
  2. 对于 CC 中的每个项目集 IIGG 的每个文法符号 XX,如果 goto(I,X)goto(I, X) 非空且不在 CC 中,则将其加入 CC 中。重复这一步直到没有新的项目集加入 CC

项目集规范族和 gotogoto 函数构成了识别 GG' 的活前缀的 DFA。

构造拓广文法 GG'SLR(1)SLR(1) 分析表

  1. 构造 GG'LR(0)LR(0) 项目集规范族 C={I0,I1,,In}C = \left\{I_{0}, I_{1}, \dots, I_{n} \right\}

  2. 对于 CC 中的每个项目集 II 构造一个状态 ii,且 actionaction 表的值按下列规则确定:

    1. 如果 AαaβA \rightarrow \alpha \boldsymbol{\cdot} a \betaIiI_{i} 中,且 goto(Ii,a)=Ijgoto(I_{i}, a) = I_{j},则令 action[i,a]=action[i, a] = 移进 jj
    2. 如果 SSS' \rightarrow S \boldsymbol{\cdot}IiI_{i} 中,那么令 action[i,$]=action[i, \$] = 接受;
    3. 如果 AαA \rightarrow \alpha \boldsymbol{\cdot}IiI_{i} 中,那么对 FOLLOW(A)FOLLOW(A) 中的所有 aa,令 action[i,a]=action[i, a] = 归约 AαA \rightarrow \alpha,此时 AA 不能为 SS'

    如果在应用上述规则时产生冲突,则该文法就不是 SLR(1)SLR(1) 的,算法流产,不产生分析器;

  3. 对所有的非终结符 AA,如果 goto(Ii,A)=Ijgoto(I_{i}, A) = I_{j},令 goto[i,A]=jgoto[i, A] = j

  4. 不能由规则 2. 和 3. 定义的表项均为空白,表示出错;

  5. 分析器的初始状态是包含项目 SSS' \rightarrow \boldsymbol{\cdot}S 的项目集 I0I_{0} 所代表的状态。

2.4.3 构造规范的 LRLR 分析表

LR(1)LR(1) 项目[Aαβ,a][A \rightarrow \alpha \boldsymbol{\cdot} \beta, a],其中 AαβA \rightarrow \alpha \beta 是产生式,AαβA \rightarrow \alpha \boldsymbol{\cdot} \beta 称作项目的aa 是终结符或 $\$,称作项目的搜索符。项目 [Aαβ,a][A \rightarrow \alpha \boldsymbol{\cdot} \beta, a][Aαβ,b][A \rightarrow \alpha \boldsymbol{\cdot} \beta, b] 可简写成 [Aαβ,a/b][A \rightarrow \alpha \boldsymbol{\cdot} \beta, a/b]

闭包函数 closureclosure

  1. 初始时,将 II 的每个项目都加入 closure(I)closure(I)
  2. 如果 [AαBβ,a][A \rightarrow \alpha \boldsymbol{\cdot} B \beta, a]closure(I)closure(I) 中,且 BγB \rightarrow \gamma 是产生式,则对于 FIRST(βa)FIRST(\beta a) 中的每个终结符 bb,将 [Bγ,b][B \rightarrow \boldsymbol{\cdot} \gamma, b] 加入 closure(I)closure(I) 中。反复应用此规则,直到没有新的项目加入 closure(I)closure(I) 为止。

转移函数 gotogotogoto(I,X)goto(I, X) 是满足 [AαXβ,a][A \rightarrow \alpha \boldsymbol{\cdot} X \beta, a] 属于 II 的所有项目 [AαXβ,a][A \rightarrow \alpha X \boldsymbol{\cdot} \beta, a] 的集合的闭包。

LR(1) 项目集规范族 CC

  1. 初始时将项目集 closure({[SS,$]})closure(\left\{[S' \rightarrow \boldsymbol{\cdot}S, \$]\right\}) 加入 CC 中;
  2. 对于 CC 中的每个项目集 IIGG 中的每个文法符号 XX,如果 goto(I,X)goto(I, X) 非空且不在 CC 中,则将其加入 CC 中。重复这一步直到没有新的项目集加入 CC 中。

构造拓广文法 GG' 的规范的 LRLR 分析表

  1. 构造 GG'LR(1)LR(1) 项目集规范族 C={I0,I1,,In}C = \left\{I_{0}, I_{1}, \dots, I_{n} \right\}

  2. 对于 CC 中的每个项目集 II 构造一个状态 ii,且 actionaction 表的值按下列规则确定:

    1. 如果 [Aαaβ,b][A \rightarrow \alpha \boldsymbol{\cdot} a \beta, b]IiI_{i} 中,且 goto(Ii,a)=Ijgoto(I_{i}, a) = I_{j},则令 action[i,a]=action[i, a] = 移进 jj
    2. 如果 [SS,$]S' \rightarrow S \boldsymbol{\cdot}, \$]IiI_{i} 中,那么令 action[i,$]=action[i, \$] = 接受;
    3. 如果 [Aα,a][A \rightarrow \alpha \boldsymbol{\cdot}, a]IiI_{i} 中,令 action[i,a]=action[i, a] = 归约 AαA \rightarrow \alpha,此时 AA 不能为 SS'

    如果在应用上述规则时产生冲突,则该文法就不是 LR(1)LR(1) 的,算法流产,不产生分析器;

  3. 对所有的非终结符 AA,如果 goto(Ii,A)=Ijgoto(I_{i}, A) = I_{j},令 goto[i,A]=jgoto[i, A] = j

  4. 不能由规则 2. 和 3. 定义的表项均为空白,表示出错;

  5. 分析器的初始状态是包含项目 [SS,$][S' \rightarrow \boldsymbol{\cdot}S, \$] 的项目集 I0I_{0} 所代表的状态。

2.4.4 构造 LALRLALR 分析表

同心的 LR(1)LR(1) 项目集:略去搜索符后相同的项目集。

构造拓广文法 GG'LALRLALR 分析表

  1. 构造 GG'LR(1)LR(1) 项目集规范族 C={I0,I1,,In}C = \left\{I_{0}, I_{1}, \dots, I_{n} \right\}

  2. 寻找 LR(1)LR(1) 项目集规范族中同心的项目集,用它们的并集代替他们,构成 LALR(1)LALR(1) 项目集规范族 C={J0,J1,,Jm}C' = \left\{J_{0}, J_{1}, \dots, J_{m} \right\}

  3. CC' 上应用构造 LR(1)LR(1) 分析表的算法构造 LALRLALR 分析表。

2.4.5 LRLR 分析的错误恢复

  1. LRLR 分析器在访问转移表时绝不会遇到出错条目,即决不会把不正确的后继移进栈;

  2. 规范的 LRLR 分析器甚至在报告错误之前决不做任何无效归约

紧急方式错误恢复

  1. 退栈,直至出现状态 ss,它有预先确定的非终结符 AA 的转移(即 goto[s,A]goto[s, A] 有定义);
  2. 抛弃若干个输入符号,直到找到 aa,它是 AA 的合法后继;
  3. AA 和状态 goto[s,A]goto[s, A] 压入栈,恢复正常分析。

AA 的选择一般是代表主要语法构造的非终结符,如表达式、语句或程序块。

短语级恢复:对剩余输入作局部修正,如用分号代替逗号,删去多余的分号,或插入遗漏的分号等。

2.5 语法分析器的生成器(Yacc)

3 语法制导翻译

3.1 语法制导定义

语法制导定义(Syntax-Directed Definition,SDD)是带属性和语义规则的上下文无关文法,其中每个文法符号有一组属性,每个产生式有一组语义规则,其中的文法成为基础文法,文法符号 XX 的属性 aa 记作 X.aX.a

在一个语法制导定义中,AαA \rightarrow \alpha 是文法产生式,b=f(c1,c2,,ck)b = f(c_{1}, c_{2}, \dots, c_{k}) 是该产生式的一个语义规则,其中 ff 是函数,bbc1,c2,,ckc_{1}, c_{2}, \dots, c_{k} 是该产生式的文法符号的属性,该产生式定义属性 bb,则称属性 bb 依赖于属性 c1,c2,,ckc_{1}, c_{2}, \dots, c_{k},且:

  1. 如果 bbAA 的属性,bbc1,c2,,ckc_{1}, c_{2}, \dots, c_{k} 是产生式右部文法符号的属性或 AA 的其他属性,则称 bbAA综合属性

  2. 如果 bb 是产生式右部某个文法符号 XX 的属性,c1,c2,,ckc_{1}, c_{2}, \dots, c_{k} 是产生式右部文法符号的属性或 AA 的属性,则称 bbXX继承属性

属性文法是指语义规则函数无副作用的语法制导定义。

仅使用综合属性的语法制导定义称为 S 属性定义

每个结点的属性值都标注出来的分析树称作注释分析树,计算各结点的属性值的过程称作分析数的注释修饰

属性依赖图:分析树上每个结点的每个属性在依赖图上都有一个结点,如果属性 bb 依赖于属性 cc,则从 cc 的结点到 bb 的结点有一条有向边。

显然,依赖图的任何一个拓扑排序都是分析树中结点的属性计算的一个正确次序。

至此,由语法制导定义所规范的翻译可以准确地按照下述步骤完成:

  1. 根据基础文法构造输入的分析树;
  2. 构造属性依赖图;
  3. 对依赖图的结点进行拓扑排序;
  4. 按拓扑排序的次序计算属性。

这种计算方法称作分析树方法

对语义规则进行分析,对每个产生式得到与其相关联的一组语义规则的计算次序,据此把计算次序在编译前就确定下来的方法称作基于规则的方法

不是根据语义规则的特点来选取计算策略,而是根据事先确定的计算策略来限定编译器设计者所提供的语义规则的形式的计算方法称作忽略规则的方法

3.2 S 属性定义的自下而上计算

仅使用综合属性的语法制导定义称为 S 属性定义

3.2.1 构造语法树的语法制导定义

语法树是分析树的浓缩表示,算符和关键字不是作为叶结点而是分支节点。

数据结构:语法树的结点可用有若干域的记录来实现,其中,对于算符结点,一个域存放算符,作为该节点的标记,其余的域存放指向运算对象的指针;对于基本运算对象结点,一个域存放其类型,另一个域存放其值。真正用于翻译时语法树的结点还可能有其他域来存储附加在该节点的其他属性值或指向其他属性值的指针。

3.2.2 S 属性的自下而上计算

分析器把文法符号的综合属性放在栈中,每当归约时,根据出现在栈顶的产生式右部符号的属性来计算左部符号的综合属性。

3.3 L 属性定义的自上而下计算

3.3.1 L 属性定义

语法制导定义是 L 属性的,如果每个产生式 AX1X2XnA \rightarrow X_{1} X_{2} \dots X_{n} 的每条语义规则计算的是 AA 的综合属性,或者计算的是 XjX_{j} 的继承属性(1jn1 \le j \le n)且它仅依赖(1)该产生式中 XjX_{j} 左边符号 X1,X2,,Xj1X_{1}, X_{2}, \dots, X_{j - 1} 的属性;和(2)AA 的继承属性。

显然,SS 属性定义是 LL 属性定义。

3.3.2 翻译方案

语法制导翻译方案(Syntax-Directed Translation scheme,SDT)是语法制导定义的一种补充,区别是将语义动作插入在产生式右部的任何地方。这是一种分析和动作交错的方法,以表示动作的执行时机。

Aα{}βA \rightarrow \alpha \{ \dots \} \beta 中的语义动作 {}\{ \dots \} 应当在 α\alpha 的推导(或向 α\alpha 的归约)结束以后,β\beta 的推导(或向 β\beta 的归约)开始之前执行。

3.3.3 预测翻译器的设计

从语法制导翻译方案构造语法制导的递归下降预测翻译器

  1. 为每个非终结符 AA 构造一个函数,AA 的每个继承属性声明为该函数的一个形式参数,AA 的综合属性作为该函数的返回值,对 AA 的产生式的其他每个文法符号的每个属性,在该函数中声明一个对应的局部变量;

  2. 非终结符 AA 对应的函数中,根据当前的输入符号决定使用哪一个产生式;

  3. 每个产生式对应的程序代码中,按照从左到右的次序,对于产生式右部的记号(终结符)、非终结符和语义动作分别作以下工作:

    1. 对于带有综合属性 xx终结符 XX(为于属性区分,这里终结符也用大写字母表示),把 xx 的值存入为 X.xX.x 设置的变量中,然后产生一个匹配 XX 的调用,并推进输入指针;

    2. 对于非终结符 BB,产生赋值语句 c=B(b1,b2,,bn)c = B(b_{1}, b_{2}, \dots, b_{n}),其中,BB 是与非终结符 BB 相对应的函数,b1,b2,,bnb_{1}, b_{2}, \dots, b_{n} 是为非终结符 BB 的继承属性设置的变量,cc 是为非终结符 BB 的综合属性设置的变量;

    3. 对于每个语义动作,把语义动作的代码复制到函数代码中,将其中对于属性的引用改为对函数中相应的局部变量的引用。

3.4 L 属性的自下而上计算

在自下而上分析的框架中实现 L 属性定义。

能实现任何基于 LL(1)LL(1) 文法的 L 属性定义,也能实现许多(但不是全部)基于 LR(1)LR(1) 文法的 L 属性定义。

为此,需要对翻译方案进行修改。要删除翻译方案中嵌入的动作,以使语义动作都出现在产生式右端,在归约时执行;还需要处理继承属性。

3.4.1 删除翻译方案中嵌入的动作

对于每个嵌入的语义动作,在文法中嵌入一个对应的推出空串的标记非终结符 MM 来代表它,并将该语义动作加入到产生式 MεM \rightarrow \varepsilon 的右端。

如翻译方案

  ETRR+T {print(+);} R1  T {print();} R1  εTnum {print(num.val);}\ \ \begin{aligned} &E \rightarrow T R \\ &R \rightarrow + T \ \{ print('+'); \} \ R_{1} \ | \ - T \ \{ print('-'); \} \ R_{1} \ | \ \varepsilon \\ &T \rightarrow \mathbf{num} \ \{ print(\mathbf{num}.val); \} \end{aligned}

可变换成

  ETRR+TMR1  TNR1  εTnum {print(num.val);}Mε {print(+);}Nε {print();}\ \ \begin{aligned} &E \rightarrow T R \\ &R \rightarrow + T M R_{1} \ | \ - T N R_{1} \ | \ \varepsilon \\ &T \rightarrow \mathbf{num} \ \{ print(\mathbf{num}.val); \} \\ &M \rightarrow \varepsilon \ \{ print('+'); \} \\ &N \rightarrow \varepsilon \ \{ print('-'); \} \end{aligned}

3.4.2 分析栈上的继承属性

对于能够静态确定其所依赖的属性在分析栈中的位置的继承属性,直接增加对应的语义动作即可。

对于不能确定位置的属性,可尝试增加标记非终结符,使属性的位置可以静态确定。如对于语法制导定义

  产生式语义规则SaACC.i=A.sSbABCC.i=A.sCcC.s=g(C.i)\ \ \begin{array} { l l } { \text{产生式} } & { \text{语义规则} }\\ { S \rightarrow a A C } & { C.i = A.s } \\ { S \rightarrow b A B C } & { C.i = A.s } \\ { C \rightarrow c } & { C.s = g( C.i ) } \end{array}

可变换为

  产生式语义规则SaACC.i=A.sSbABMCM.i=A.s, C.i=M.sCcC.s=g(C.i)MεM.s=M.i\ \ \begin{array} { l l } { \text{产生式} } & { \text{语义规则} } \\ { S \rightarrow a A C } & { C.i = A.s } \\ { S \rightarrow b A B M C } & { M.i = A.s , \ C.i = M.s } \\ { C \rightarrow c } & { C.s = g( C.i ) } \\ { M \rightarrow \varepsilon } & { M.s = M.i } \end{array}

从而对于非终结符 CC,不论是在 aACa A C 还是 bABMCb A B M C 的情况下使用 CcC \rightarrow c 时,C.iC.i 的值都可从 stack[top1].valstack[top - 1].val 找到。

对于需要计算的继承属性(即该继承属性是某个综合属性的一个函数),也可通过增加标记非终结符来模拟继承属性的计算。如对于语法制导定义

  产生式语义规则SaACC.i=f(A.s)CcC.s=g(C.i)\ \ \begin{array} { l l } { \text{产生式} } & { \text{语义规则} } \\ { S \rightarrow a A C} & {C.i = f(A.s)} \\ { C \rightarrow c} & { C.s = g( C.i ) } \end{array}

可变换为

  产生式语义规则SaANCN.i=A.s, C.i=N.sNεN.s=f(N.i)CcC.s=g(C.i)\ \ \begin{array} { l l } { \text{产生式} } & { \text{语义规则} } \\ { S \rightarrow a A N C} & {N.i = A.s, \ C.i = N.s} \\ { N \rightarrow \varepsilon } & { N.s = f(N.i) }\\ { C \rightarrow c} & { C.s = g( C.i ) } \end{array}

从而把 f(A.s)f(A.s) 的计算移到对标记非终结符 NN 归约时(推导 CC 之前)进行。

可以证明,对于基于 LL(1)LL(1) 文法的 L 属性定义,总可以通过系统地引入标记非终结符,以在 LRLR 分析期间完成属性计算,且因为每个标记非终结符只有一个产生式,因此引入标记非终结符后的文法仍然是 LL(1)LL(1) 的,进而是 LR(1)LR(1) 的,从而不会引起 LRLR 分析动作的冲突。

但对于 LR(1)LR(1) 文法的 L 属性定义,引入标记非终结符可能使文法不再是 LR(1)LR(1) 的。

4 类型检查

5 运行时存储空间的组织和管理

6 中间代码生成

7 代码生成


© 2019 倪可塑 保留所有权利。