NLP複習資料 5 第九章 句法分析

2021-09-24 20:12:07 字數 1601 閱讀 7826

(1)基於cfg規則的分析:沒法解決歧義問題。

(2)基於pcfg的分析:能夠解決歧義問題,但是概率計算條件過於苛刻)

(1.1)基於cfg規則的兩種方法:線圖分析法、cyk方法

線圖分析法:p20例子掌握了就差不多了。詞性序列作為線圖的邊,依據規則不斷構成新的弧,弧的標記為規則的左邊,弧連線的詞性串為規則的右邊。最後將弧轉換成節點,節點轉換成邊,就能得到句法分析樹。p30(時間複雜度為kn3

kn^3

kn3)

cyk方法:p49的例子,(識別矩陣上的操作)識別矩陣的主對角線上是詞語,次對角線上是對應的詞性標註,再次對角線上是依據規則約規的規則左端標記,直至,最有上角的位置標記為s,由識別矩陣就可以構造句法分析樹。

(1.2)基於pcfg的分析:概率上下文無關文法

在上下文無關文法的基礎上,每一條文法都有一定的出現概率,那麼利用這些規則轉換而成的句法分析樹每個節點周圍都會帶有概率標記,通過概率規則,計算整棵樹的概率(實際上是所有概率連乘),概率最大的樹為最有可能的分析樹。由於最大概率的挑選準則,使得pcfg可以克服歧義問題,但是概率模型太依靠於語料庫。p64句法分析樹概率計算

pcfg的三個問題(和hmm模型有的一拼)p73:

->快速計算p(w|g):內向演算法:遞迴的演算法(不會考演算法吧)

->選擇最佳句法結構樹:viterbi演算法:viterbi變數對應的最大概率,

->調整g使得p(w|g)最大:巴拉巴拉,我覺的不用記吧

基於pcfg的語法分析例項:

在cyk的基礎上多了每個小格仔多了概率標記,最後可以計算句法分析樹的概率p103

p125精度、召回率、f-measure、p127交叉括號數(最好記一下)

p132 頁的交叉括號數為0,交叉括號的的準確率為100% (不甚理解)

2.1依存句法結構描述—有向圖、依存樹

2.2 分析演算法:

生成式分析方法:score(x,y|引數)找打打分最高的結果作為分析結果

判別式分析方法:最大生成樹模型,加權和分值最高的邊的組合

決策式分析方法:移進-約歸演算法,arc-eager演算法:左弧、右弧、移動、約歸、p33實現乙個句法分析器:在每個狀態下依據特徵決定下一步該採取的行動。通過標記資料集合得到特徵集合,構造動作分析器,就是記錄一系列上下文轉換情況,在應用時,查詢轉換規則即可。

無標記正確率(支配關係寫對就行,分母是輸出句子的分詞數目)

帶標記正確率(支配關係和支配型別都得對,分母是輸出句子的分詞數目)

依存正確率(不帶根節點的正確率,分母是輸出句子的分詞數目-根的數目)

根正確率(正確根數/句子數)

完全匹配率(正確根的句子/總句子)

短語->依存p52(中心詞抽取規則,產生中心此表-)每個節點中心詞抽取->非中心節點依存到中心節點上)

p59至少記住兩個吧

漢語功能詞少;

漢語右部為中心,英語左部為中心;

漢語中省略主語的請款經常存在(他認為()是正確的)

(p66分割句子-子句句法分析-分析子句之間的關係-最終得到整個句子的最大概率分析樹)

第九章 資料安全

資料安全概述 資料庫安全 1 資料庫系統執行安全,包括其所在的主機系統安全 2 資料資訊保安,即資料安全 資料安全 指資料的完整性 可用性 保密性和可靠性 資料安全依賴於資料庫管理系統所採用的安全策略 安全模型和安全機制 資料安全所面臨的威脅 1 授權人員的非故意錯誤行為 2 社交工程 3 內部人員...

第九章 資料庫

redis 中資料庫的概念 切換資料庫的命令 select 1 資料庫鍵空間 key space redis 每個資料庫都有乙個資料庫鍵空間,資料庫鍵空間是一種字典結構 dict 字典 expires 字典 設定鍵的生存時間和過期時間 過期字典儲存鍵的過期時間 expire,pexpire,expi...

第九章 資料查詢(二)

9.4 連線查詢 9.4.1 內連線查詢 最常見的是相等連線,最後的結果集只包含參加連線的表中與指定字段相符的行。select name,books from tb login,tb book where tb login.user tb book.user 9.4.2 外連線查詢 1.左外連線 t...