NLTK基礎教程學習筆記（十）

依賴性文字解析：

依賴性文字解析（dependency parsing 簡稱dp）是一種現代化的文字解析機制。dp的主要概念是將各個語法單元（單詞）用丁香鏈路串聯起來。這種鏈路稱為依賴關係（dependencies）。在目前的文字解析社群中，有大量工作在進行。儘管短語結構式文字解析（phrase structure parsing）在異鄉詞序自由的語言（如捷克語和土耳其語）中被廣泛使用，但依賴性文字解析別被證明是一種更為有效地方法。

短語結構式文字解析與依賴性文字解析之間存在著乙個明顯的區別，從他們所產生的解析樹上可以看出來。

解析書上短語結構樹試圖捕捉的首先是單詞與短語之間的關係，然後是短語與短語之間的關係，依存關係樹只關心單詞與單詞之間的關係如big完全依賴於dog。

nltk庫也提供了一些可用於執行依存性文字解析的方法。其中乙個是使用基於概率的投射依存性解析器（probabilistic，projective dependency parser），但解析器得經由某個有限訓練資料集來進行訓練。依存性解析器的另一種形態就是stanford解析器。下面是乙個stanford解析器的例子：

語塊分解：

語塊分解屬於淺解析，目的是將句子分解成有意義的語塊，將語塊定義為文字解析中的最小單元，例如將「the president speaks about the health care reforms 「句子分成兩個語塊。第乙個語塊「the president」該語塊由名詞主導，稱為名詞短語（np），另一部分由動詞主導稱為動詞短語。

將句子劃分成各個部分的過程就是語塊分解。從形式上看語塊分解操作也可以被看作是一種處理介面，作用是識別出文字中互相不重疊的部分。

對於一些文字問題想只想提取其中的關鍵短語，命名實體或者先關專案的特定模式，在這種情況下要做淺解析非深解析，深解析回去處理所有違法語法規則的句子，也會產生不同的語法樹，直到解析器在反覆回溯的過程中找到最佳的解析樹，整個過程非常耗時和繁瑣，並且完成了所有的這些過程也未必會得到正確的解析樹。而淺解析則可以用語塊來保證其淺解析的結構，這種處理相對而言要較快一些。

NLTK基礎教程學習筆記（十）

NLTK基礎教程學習筆記（九）

NLTK基礎教程學習筆記（五）

NLTK基礎教程學習筆記（四）

NLTK基礎教程學習筆記（十）

NLTK基礎教程學習筆記（九）

NLTK基礎教程學習筆記（五）

NLTK基礎教程學習筆記（四）

相關推薦