統計自然語言處理基礎學習筆記(1)

2021-07-27 09:06:32 字數 930 閱讀 9061

識別文字中的搭配

識別搭配有很多方法,書中介紹了基於頻率的搭配識別,基於含義和主詞搭配之間距離的識別,基於假設測試和互資訊的識別。

1.基於頻率的識別

如果兩個詞在一起出現了很多次,那麼就是乙個證據說明它們有特殊的功能,可以預計到的是僅僅找到最頻繁出現的二元組結果並不理想,會出現很多由2個功能詞組合的二元組,如of the,in the,to the等等。

對於上面的不理想情況,有一種可以解決的辦法,即基於詞性標記的短語過濾搭配識別,如下:

標記模式

示例a  n

linear function

n  n

regression coefficients

n p n

degrees of freedom

經過過濾器過濾之後出現的頻率排名最高的短語,效果遠遠好於最簡單的頻率模式。

2.基於距離的識別

我們知道有一些二詞搭配中兩個單詞的距離很靈活,例如put up,put it up,put the book up,put和up之間的距離可以有很多種選擇。

於是我們基於均值和方差的方法可以尋找這樣特殊的搭配。

在某語料庫中,knocked和它的常用搭配之一door,

a.she knocked on his door

b.they knocked at the door

c.100 women knocked on donaldson's door

d.a man knocked on the metal front door

knock和door之間的平均距離為1/4(3+3+5+5) = 4.0

偏差為s=3.15

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

自然語言處理基礎學習

自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期,計算機語言蓬勃發展,形式語言理論趨向成熟,這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性,以及自然語言的上下文有關性,導致不能得到廣泛的運用。擴種轉移網路atn是一種多功能自然語言的語法表...

統計自然語言處理(詞法)

語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...