編譯器實現之旅第八章實現語義分析器

作為編譯器後端的第一站，我們首先來實現語義分析器。

正如上一章所說，語義分析器主要用於對抽象語法樹進行語義層面的進一步檢查，並生成符號表。我們也為符號表給出了乙個「記錄任何你想額外記錄下的東西的表」這樣的說了等於沒說的定義。那麼，cmm編譯器的語義分析器到底需要做什麼？其符號表又需要儲存什麼呢？

事實上，出於簡單考慮，cmm編譯器的語義分析器並不做任何的語義檢查，只負責生成符號表。為了明確符號表到底需要記錄什麼，我們需要回顧cmm語言的這幾點功能：

支援賦值（這也包括了支援變數）

支援函式

支援陣列

區分全域性作用域與區域性作用域

也就是說，我們需要通過某種資料結構，將變數名、函式名、陣列大小、作用域資訊等內容全都放進去。似乎很複雜？請接著往下看。

不難發現，變數名和函式名，其實都是抽象語法樹中的某個記號字串；而陣列大小其實也是抽象語法樹中的某個記號字串，只不過我們這裡需要將其轉為整型；那麼，作用域資訊呢？很簡單，我們只需要回答這樣乙個問題：誰產生了作用域？答案當然是函式。也就是說，對於每個函式，其都有乙個作用域，此外，還有乙個全域性作用域。我們還能發現：所有的變數名都位於某個作用域中；而陣列大小是陣列變數的乙個「附加屬性」。

我們需要記錄乙個全域性作用域，和若干函式作用域。且函式作用域由各個函式產生

在每個作用域中，我們需要分別記錄若干變數名

每個變數可能具有陣列大小這一「附加屬性」

有了這幾點思考後，讓我們繼續思考：

作用域該怎麼記錄？用函式名即可。而全域性作用網域名稱只需要使用乙個「非法函式名」即可，我們不妨使用「global」

變數名該怎麼記錄？同理，用變數名即可；此外，我們還需要為每個變數名從0開始按順序編號。至於編號的作用，我們將在**生成器的相關章節中找到答案

陣列大小該怎麼記錄？顯然，用乙個整型即可

作用域是最大的符號表層次，每個作用域中都包含著若干變數名，而每個變數名都具有變數的編號和陣列大小這兩個屬性；如果這個變數不是陣列，那麼陣列大小設為0即可

乙個資料結構在我們的腦海中漸漸浮現：雜湊表。

沒錯，我們可以用雜湊表來同時存放變數名、函式名、陣列大小、作用域資訊等內容。這樣的雜湊表是雙層的：第一層是作用域，我們可以通過函式名或「global」作為鍵進行訪問；第二層是變數名，顯然，我們可以通過某個變數名作為鍵進行訪問；而雜湊值是一對整型，第乙個整型代表了變數的編號，而第二個整型代表了陣列大小。

語義分析器的實現如下所示：

unordered_map>> semanticanalyzer(ast *root)
}}; int globalidx = 0;
/*token_type::decl_list
||---- __decl
||---- [__decl]..
.*/
for (auto declnodeptr: root->sublist);}
}/*
token_type::compound_stmt
||---- __localdecl
||---- __stmtlist
token_type::local_decl
||---- [__vardecl]..
.*/
for (auto vardeclptr: declnodeptr->sublist[3]->sublist[0]->sublist)
;varidx += varsize + 1;}}
else
;globalidx += varsize + 1;}}
return symboltable;
}

語義分析器函式以抽象語法樹的樹根作為輸入，並在整個抽象語法樹中獲知我們所需要的資訊。在進入抽象語法樹之前，我們首先建立了乙個空的符號表，由於全域性作用域一定存在，故我們立即為符號表新增上代表著全域性作用域的鍵；我們還定義了乙個整型globalidx，以跟蹤各個全域性變數的編號。

語法樹的樹根具有一系列的子節點，這些子節點通過decl語法構造而來；而decl又可以推導出「vardecl | funcdecl」，也就是說，整個語法樹上按順序排列著變數的宣告，或函式的宣告

對於函式的宣告，即funcdecl語法，我們可以發現：函式名應該出現在func_decl節點的第二子節點上；而變數名應該出現在兩處：第一處是func_decl節點的第三子節點，即param_list節點的各個子節點上（僅當func_decl節點的第三子節點不是void），這些子節點代表了函式的形參；而第二處則位於func_decl節點的第四子節點，即compound_stmt節點的第一子節點，又即local_decl節點的各個子節點上，這些子節點代表了函式的區域性變數。所有這些子節點的變數名，都位於各個子節點的第二子節點上；而陣列長度，對於形參子節點而言沒有，對於區域性變數子節點而言，則位於各個子節點的第三子節點上（這段說明真的是太繞了）

我們還需要關注的一點是：變數該如何編號？通常情況下，變數從0開始編號，每次加1就行了。但由於cmm中的變數可能是乙個陣列，故在語義分析器的實現中，我們不僅在每次遇到乙個新的變數名後將變數的編號加1，我們還在每次遇到陣列時將編號額外的加上了陣列的長度。這樣做的意義是什麼？我們將在**生成器的相關章節看到答案。

至此，語義分析器就已經實現完成了。通過語義分析器，我們得到了對於**生成器而言非常重要的乙個「資訊中心」——符號表。接下來，就讓我們來看看低階指令的執行器——虛擬機器是怎麼實現的吧。請看下一章：《實現虛擬機器》。

編譯器實現之旅第八章實現語義分析器

第八章觸發器

Linux核心設計與實現第八章

總結 CLR Via C （第八章）構造器

編譯器實現之旅 第八章 實現語義分析器

第八章 觸發器

Linux核心設計與實現 第八章

總結 CLR Via C （第八章） 構造器

相關推薦

編譯器實現之旅第八章實現語義分析器

第八章觸發器

Linux核心設計與實現第八章

總結 CLR Via C （第八章）構造器