從零開始寫個編譯器吧 - 程序流控制

huangjinnan 發布于2019-08-14 15:15 / 1832人閱讀

摘要：從展開式中，可以看出，除了這個非終結符，還有其他一些非終結符。是可能展開的形式之一，在語言中，如下代碼就是一行典型的從表達式來看，它是由一個級表達式和一個類型的非終結符組成。但特別注意結尾的數量詞表明，整個非終結符都是可選的。

目前為止我們創建的文件列表：

|- com.taozeyu.taolan.analysis
    |- FirstSetConstructor
    |- LexicalAnalysis
    |- LexicalAnalysisException
    |- NonTerminalSymbol
    |- SignParser
    |- SyntacticDefine
    |- TerminalSymbol
    |- Token

我們來看看 SyntacticDefine.java 文件（142～159 行）：

    node(Exp.StartChunk).or(Exp.Chunk),
    node(Exp.Chunk).or(
            Exp.SpaceOrEnter,
            node().or(Exp.Line, Exp.Space,
                      node().or(token(Type.NewLine), Exp.SpaceOrEnter)
                            .or(token(Type.EndSymbol))).sign("?")
    ).sign("*"),
    node(Exp.Line).or(Exp.Command)
                  .or(Exp.Operate)
                  .or(Exp.DefineVariable)
                  .or(Exp.DefineFunction)
                  .or(Exp.IfElseChunk)
                  .or(Exp.WhileChunk)
                  .or(Exp.DoUntilChunk)
                  .or(Exp.ForEachChunk)
                  .or(Exp.TryCatch)

我們定義了三個命名了的非終結符：StartChunk、Chunk、Line。

其中 StartChunk 是我們展開式的所有起點，每一個 tao 語言的源代碼文件都從 StartChunk 開始展開。這里我簡單的將其展開為 Chunk。

而 Chunk 表示一個語法塊，它由許多行（Line）構成。但是在文法定義中，我必須為其每行的首位定義許多必要的雜項。從展開式中，可以看出，除了 Line 這個非終結符，還有其他一些非終結符：SpaceOrEnter、Space、NewLine、EndSymbol。

這些非終結符的含義，可以在 SyntacticDefine.java 文件的對應位置找到（可以使用 ctrl+F 搜索），只要找到它們對應的展開式，相信不難理機它們的含義。特別的 EndSymbol，即是 Tokenizer 代表源代碼解析結束的終止符。

Chunk 是語言文法定義中最重要的非終結符。

再看看 Line，這個非終結符可以簡單的理解為“一行代碼”。自然，Chunk 就是由很多行代碼組成的。特定的一行代碼可以寫很多東西，可能用于定義一個變量，也可能是一行賦值語句，也可能是在調用一個方法?？傊?，它可以是很多很多種東西。從之前這段代碼中，可以看到，它有很多種展開式。

大家可以通過 GitHub 自行查看 Line 展開后對應的非終結符具體還能再如何展開，但受限于篇幅，我只會對其中一部分進行講解。

node(Exp.Operate).or(Exp.L0Expression, Exp.When)

Operate 是 Line 可能展開的形式之一，在 tao 語言中，如下代碼就是一行典型的 Operate：

count = size * 2 + 1

從表達式來看，它是由一個 0 級表達式（L0Expression）和一個 When 類型的非終結符組成。

其中 L0Expression 代表一個表達式，它可能是一行賦值語句，也可能是一個函數調用，它是我們文法定義中一個比較復雜，但卻到處都會出現的東西，我會在之后的章節進行簡單介紹。

隨后，緊接而來的是 When 非終結符。我們來看看 When 的定義是怎么樣的：

node(Exp.When).or(node().or(Exp.SplitSpaceSign).sign("?"),
              node().or(token(Type.Keyword, "when"), Exp.SplitSpaceSign, Exp.L0Expression).sign("?"))

它主要由一個 when 關鍵字緊接令一個 0 級表達式組成。但特別注意結尾的 .sign("?") 數量詞表明，整個非終結符 When 都是可選的。也就是說，Operate 后面不寫 when 也沒有關系。

一行寫了 when 的 tao 語言代碼可能是如下形式：

count = size * 2 + 1 when size > 1

這是一種簡寫形式，在 tao 語言中等價于如下寫法：

if size > 1
    count = size * 2 + 1
end

接下來，我們來看看 DefineVariable 非終結符：

node(Exp.DefineVariable).or(token(Type.Keyword, "var"), Exp.Space, Exp.DefineVariableElement,
                            node().or(Exp.Space, token(Type.Sign, ","),
                            Exp.SpaceOrEnter, Exp.DefineVariableElement).sign("*"))

注意到 DefineVariableElement 似乎還可以繼續展開：

node(Exp.DefineVariableElement).or(token(Type.Identifier), Exp.Space,
                                   node().or(token(Type.Sign, "="), Exp.Space, Exp.L0Expression).sign("?"))

這表明 tao 語言中定義局部變量的形式如下：

var cat = take_cat(), dog = Dog.alloc().init()

當然，從 DefineVariableElement 的展開式中的 .sign("?") 量詞可以知道，去掉等號以及等號后面的表達式，也是合法的局部變量定義：

var cat, dog

甚至，一次只定義一個變量，當然也是可以的：

var cat

在接下來，就是 IfElseChunk 了：

node(Exp.IfElseChunk).or(
                    token(Type.Keyword, "if"), Exp.Space,
                    Exp.L0Expression, Exp.SpaceOrEnter,
                    Exp.Chunk,
                    node().or(token(Type.Keyword, "elsif"), Exp.Space,
                              Exp.L0Expression, Exp.SpaceOrEnter,
                              Exp.Chunk).sign("*"),
                    node().or(token(Type.Keyword, "else"), Exp.SpaceOrEnter,
                              Exp.Chunk).sign("?"),
                    Exp.SpaceOrEnter,
                    token(Type.Keyword, "end"))

注意到，這里展開出現了四種關鍵字：if、elsif、else、end。

tao 語言中，一個典型的 if-else-chunk 是如下這樣子的：

if check_condition(100)
    a = 1 + 1
elsif a > 2
    a += 3
else
    a = 0
end

當然，elsif 可以重復出現0～N 次：

if check_condition(100)
    a = 1 + 1
elsif a > 2
    a += 3
elsif a > 3
    a += 4
elsif a > 4
    a += 7
else
    a = 0
end

而 else 是可選的，可以沒有：

if check_condition(100)
    a = 1 + 1
elsif a > 2
    a += 3
end

也可以只剩下 if 和 end：

if check_condition(100)
    a = 1 + 1
end

從文法定義的角度來看，if-else-chunk 這種形式的變化，我通過數量詞 sign("*") 和 sign("?") 來控制。

云服務器 GPU云服務器從零開始 linux從零開始 python從零開始從零開始php

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/65512.html

從零開始寫個編譯器吧 - tao 語言的文法定義（上）

摘要：一個非終結符可以被展開稱為一個串，如上定義便是將這個非終結符展開稱為一個又終結符和非終結符混合而成的串。特別注意我定義的方法僅僅用于修飾非終結符，而非展開式，雖然這個例子中我的方法更靠近方法，但并意味著用于修飾展開式。各位久等了，本系列在新一年的連載中，形式會加入少許變化。首先，我會將 tao 語言編譯器（以及運行環境）的全部內容貼在 GitHub 上，在閱讀本系列的時候，需要對照 ...

wuyangchun 2019-08-14 15:15 評論0 收藏0
從零開始寫個編譯器吧 - 從何處下手

摘要：作為本系列的第一章，將考慮從何開始下手。運行環境解釋執行編譯器產生的目標代碼。從零開始寫個編譯器吧從何處下手的博客作為本系列的第一章，將考慮從何開始下手。既然寫的是編譯器，那在此得明確編譯器長什么樣子，進一步，編譯器由哪幾部分構成，其工作原理大概是怎樣的。了解了這些，才好下手。簡單來說，編譯器本身是一個程序，這個程序能將一種代碼（源代碼）翻譯成另一種代碼（目標代碼）。簡而言之就是如...

lovXin 2019-08-14 11:58 評論0 收藏0
從零開始寫個編譯器吧系列

摘要：是的，這個系列將呈現一個完整的編譯器從無到有的過程。但在寫這個編譯器的過程中，我可不會偷工減料，該有的一定會寫上的。該語言的虛擬機將運行于之上，同時編譯器將使用實現。我早有寫編譯器的想法之前沒寫過，故希望一邊寫編譯器一邊完成這個系列。是的，這個系列將呈現一個完整的編譯器從無到有的過程。當然，為了保證該系列內容的簡潔（也為了降低難度），僅僅保證編譯器的最低要求，即僅能用。但在寫這個編譯...

genedna 2019-08-14 11:58 評論0 收藏0
從零開始寫個編譯器吧 - Parser 語法分析器

摘要：這樣的程序或稱工具有很多現成的可供選擇包括在平臺上可用的，但既然我這個系列叫做從零開始寫個編譯器吧，那顯然如果我用現成的工具，那是犯規行為。 Parser（語法分析器）的編寫相對于 Tokenizer （詞法分析器）要復雜得多，因此，在編寫之前可能也會鋪墊得更多一些。當然，本系列旨在寫出一個編譯器，所以理論方面只會簡單介紹 tao 語言所涉及的部分。之前的幾章中，我純手寫了tao 語...

fai1017 2019-08-14 12:03 評論0 收藏0
從零開始寫個編譯器吧 - 詞法分析器是一個狀態機

摘要：詞法分析器本身就是一個狀態機，生成這個狀態機有很多種方法，而我打算采取手寫的方式。狀態機不斷從源代碼即一個字符串中讀入一個一個字符，讀到不同的字符將使狀態機的狀態從一個狀態變化到另外一個狀態。詞法分析器 Tokenizer 本身就是一個狀態機，生成這個狀態機有很多種方法，而我打算采取手寫的方式。因為 tao 語言的詞法還是相對比較簡單的，手寫不成問題。先新建一個LexicalAna...

calx 2019-08-14 11:58 評論0 收藏0