自然語言處理的三個里程碑

自然語言處理的三個里程碑

文章講述了自然語言處理歷史中發現的兩個事實和三個里程碑式的進展。

兩個事實分別為：

一、短語結構語法不能有效地描寫自然語言。為了識別句子的語法結構，將句子中的詞乙個乙個切分出來，然後查詞典，給每個詞指派乙個合適的詞性；在這個基礎上，用句法規則把句子裡包含的句法成分逐個識別出來，進而判斷每個短語的句法功能及語義角色。最終得到的句子的意義表示。短語結構語法在自然語言句法描述中占用重要地位，但是有一些致命的弱點。由於短語語法結構的基礎是詞的類別屬性，而這個屬性類別是查字典得來的一種硬性劃分，過於武斷且大部分詞具有多種屬性，這樣會漏掉很多資訊，最後造成一些根本性的弱點，如「短語型別歧義」和「短語邊界歧義」等。由此說明基於單一標記的psg不能充分描述自然語言中的句法歧義現象。故後來採用複雜特徵集和詞彙主義方法來重建自然語言的語法系統，是近二十年來全球語言學界對此做出的最重要的努力。

二、短語結構規則的覆蓋有限。。chomsky 曾提出過這樣的假設,認為對一種自然語言來說,其語法規則的數目是有限的,而據此生成的句子數目是無限的。在這個假設的基礎上憑藉經驗構造語法規則，以求達到目的。通過大規模語料的調查，人們發現語言的短語規則的分布符合齊夫率。zipf 是乙個統計學家和語言學家。他提出,如果對某個語言單位(不論是字母還是詞) 進行統計,把這個語言單位在乙個語料庫裡出現的頻度(f requency) 記作f ,而且根據頻度的降序對每個單元指派乙個整數的階次( rank)r 。結果發現r 和f 的乘積近似為乙個常數。

f*r ≈ const (常數)

在詞頻的統計方面，齊夫律也發現了一些規律。80年代，sampson發現英語語料庫中psg規則的分布同樣是扭曲的，大體表現為齊夫率。也就是說,一方面經常遇到的語法規則只有幾十條左右,它們的出現頻度極高;另一方面,規則庫中大約一半左右的規則在語料庫中只出現過一次。這個發現說明，單純依靠語言學家的語感來編寫語法規則不可能勝任大規模真實文字處理的需求，我們必須尋找可以從語料庫中直接獲取大規模語言知識的新方法。

文中提到的三個里程碑式的進展為：

一、複雜特徵集。複雜特徵集又叫多重屬性描寫。這種多種屬性我認為相當於屬性文法。原來談到單一標記的短語規則的描述能力不夠，語言學家開始求助於詞彙層，並採用複雜特徵集，並利用這些屬性來強化語法規則的約束力。乙個複雜特徵集f 包含任意多個特徵名f i 和特徵值vi 對。其形式如:

f = , i = 1 , . . . , n

特徵值vi 既可以是乙個簡單的數字或符號,也可以是另外乙個複雜特徵集。一條含有詞彙和短語屬性約束的句法規則具有如下的一般形式:

< psg規則》 : < 屬性約束》

: < 屬性傳遞》

一般來說,psg規則包括右部(條件:符號串行的匹配模式) 和左部(動作: 短語歸併結果) 。詞語的「屬性約束」直接來自系統的詞庫,而短語的「屬性約束」則是在自底向上的短語歸併過程中從其構成成分的中心語(head) 那裡繼承過來的。當一條psg規則的右部匹配成功,且「屬性約束」部分得到滿足,這條規則才能被執行。我認為這是在增加多種屬性特徵的基礎上，利用屬性建立附加的「屬性約束」增強約束能力。在這個基礎上，後來又提出了廣義短語結構語法、中心驅動的短語結構語法、詞彙功能語法等。

二、詞彙主義。語言學界認為，不劃分詞類就無法將語法結構，即語法「不可能」根據個別的詞來寫規則；但是人們也注意到任何歸類都會丟失個體的某些重要資訊。這個是很有道理的。不可能為單個詞寫規則。詞和詞是有共性的，完全可以用更粗的粒度。但是乙個詞，很可能屬於很多類別，有很多的性質，不能強制分類。這樣肯定會丟失一些資訊。所以要強化語法的約束能力，詞彙的描寫應當深入到比詞類更細微的詞語本身上來。。從本質上來說,詞彙主義傾向反映了語言描寫的主體已經從句法層轉移到詞彙層;這也就是所謂的「小語法,大詞庫」的思想。句法層考慮的是短語和短語之間的聯絡。將詞分類來確定短語，更多的是考慮短語之間的關係。在詞彙層進一步細化詞的粒度，將更多的考慮詞和詞之間的關係以及詞本身的屬性。與詞彙注意有關的工作有：詞彙語法、框架語義學、wordnet、知網、mindnet等。這些工作都得到了重要的應用。詞彙語法在分類的基礎上，再對詞進一步的語法分析，描寫其能夠用到的語式。wordnet是乙個描寫英語詞彙層語義關係的詞庫，刻意描寫了詞語之間的各種語義關係，如同義、反義、上下義等。這種詞語語義學又叫作關係語義學。mindnet是微軟nlp組設計的，他們試圖用三元組作為全部知識的表示單元。全部三元組通過句法分析其自動獲取。mindnet在語法檢查、詞義排歧、機器翻譯中得到廣泛應用。

三、統計語言模型。這也就是語料庫方法。如經過統計得出乙個詞出現在另乙個詞後面的概率，找出概率最大的詞。如果只考慮前乙個詞，那麼就是二元模型，考慮2個詞則構成了三元模型。應用油語音識別、詞性標註、介詞短語pp的依附歧義等。

複雜特徵集、合一語法以及詞彙主義方法都是在原先理性主義框架（產生式或邏輯推理）框架下做出的重大貢獻。尤其詞彙主義方法的發展越來越得到語料庫和統計學方法的支援，這也是經驗主義和理性主義方法的相互融合。他們將成為自然語言處理技術的主流。

看完文章後需要進一步了解的有：短語語法結構的詳細說明與論證、複雜特徵集的確切概念、中心語驅動的短語結構語法、詞彙主義的具體說明、詞性標註等。

自然語言處理的三個里程碑

我的2011 個人職業發展的三個里程碑

我的2011 個人職業發展的三個里程碑

產品研發流程的四個里程碑

自然語言處理的三個里程碑

我的2011 個人職業發展的三個里程碑

我的2011 個人職業發展的三個里程碑

產品研發流程的四個里程碑

相關推薦