NLTK基礎教程學習筆記(十)

2021-09-21 23:28:14 字數 1050 閱讀 2341

依賴性文字解析:

依賴性文字解析(dependency parsing 簡稱dp)是一種現代化的文字解析機制。dp的主要概念是將各個語法單元(單詞)用丁香鏈路串聯起來。這種鏈路稱為依賴關係(dependencies)。在目前的文字解析社群中,有大量工作在進行。儘管短語結構式文字解析(phrase structure parsing)在異鄉詞序自由的語言(如捷克語和土耳其語)中被廣泛使用,但依賴性文字解析別被證明是一種更為有效地方法。

短語結構式文字解析與依賴性文字解析之間存在著乙個明顯的區別,從他們所產生的解析樹上可以看出來。

解析書上短語結構樹試圖捕捉的首先是單詞與短語之間的關係,然後是短語與短語之間的關係,依存關係樹只關心單詞與單詞之間的關係如big完全依賴於dog。

nltk庫也提供了一些可用於執行依存性文字解析的方法。其中乙個是使用基於概率的投射依存性解析器(probabilistic,projective dependency parser),但解析器得經由某個有限訓練資料集來進行訓練。依存性解析器的另一種形態就是stanford解析器。下面是乙個stanford解析器的例子:

語塊分解:

語塊分解屬於淺解析,目的是將句子分解成有意義的語塊,將語塊定義為文字解析中的最小單元,例如將「the president speaks about the health care reforms 「句子分成兩個語塊。第乙個語塊「the president」該語塊由名詞主導,稱為名詞短語(np),另一部分由動詞主導稱為動詞短語。

將句子劃分成各個部分的過程就是語塊分解。從形式上看語塊分解操作也可以被看作是一種處理介面,作用是識別出文字中互相不重疊的部分。

對於一些文字問題想只想提取其中的關鍵短語,命名實體或者先關專案的特定模式,在這種情況下要做淺解析非深解析,深解析回去處理所有違法語法規則的句子,也會產生不同的語法樹,直到解析器在反覆回溯的過程中找到最佳的解析樹,整個過程非常耗時和繁瑣,並且完成了所有的這些過程也未必會得到正確的解析樹。而淺解析則可以用語塊來保證其淺解析的結構,這種處理相對而言要較快一些。

NLTK基礎教程學習筆記(九)

不同的解析器型別 解析器通常需要對乙個用於表達一組語法規則的輸入字串繼續處理,然後構成乙個或者多個可用於構成某種語法概念的規則。語法是我們衡量乙個句子是否良好的乙份規範說明,而解析器則是乙個用於解讀語法的程式。該程式會通過搜尋各種不同的樹結構空間,找出給定句子的最佳樹結構,下面是一些解析器的運用細節...

NLTK基礎教程學習筆記(五)

import nltk from nltk import word tokenize s i was watching tv print nltk.pos tag word tokenize s 結果 i prp was vbd watching vbg tv nn 中先將文字進行表示化處理,再呼叫...

NLTK基礎教程學習筆記(四)

標識化處理 機器所要理解的最小處理單位是單詞 分詞 標識化處理,是將原生字元創分割成一系列有意義的分詞。標識化就是將原生字串分割成一系列有意義的分詞。標識化處理的複雜性因具體nlp應用而異,目標語言本身的複雜性本身也會帶來相關的變化。在英語中,可以通過正規表示式簡單的單詞來選取純單詞和數字,但在中文...