自然語言處理 統計語言模型(數學之美)

2021-08-08 20:14:52 字數 1239 閱讀 1202

乙個句子是否合理,就看他的可能性大小如何。

概括來說:假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1

,w2,

...,

wn組成,這裡的n表示句子的長度。則概率p(s)表示上面句子的合理性。 p(

s)=p

(w1,

w2,.

..,w

n)利用條件概率公式: p(

w1,w

2,..

.,wn

)=p(

w1)p

(w2|

w1)p

(w3|

w1,w

2)..

.p(w

n|w1

,w2,

...,

wn−1

) 上式中,p(

w1) 表示第乙個詞出現的概率,p(

w2|w

1)是在已知第乙個詞的前提下,第二個詞出現的額概率,以此類推。簡答的看一下上面的公式,可以發現除了p(

w1) 以及後面的p(

w2|w

1)比較好算以外,其他的項計算難度都比較大。

**科學家馬爾科夫給出了乙個假設—–假設任意乙個詞wt

出現的概率隻同它前面的詞wt

−1有關。於是上面的公式就可以簡化為: p(

w1,w

2,..

.,wn

)=p(

w1)p

(w2|

w1)p

(w3|

w2).

..p(

wn|w

n−1)

上式對應的統計語言模型是二元模型

對於上面公式的求解,可以利用貝葉斯公式: p(

wi|w

i−1)

=p(w

i−1,

wi)/

p(wi

−1)

其中p(w

i−1,

wi) 可以用樣本的相對頻率(樣本數量足夠)來統計。具體公式如下: p(

wi−1

,wi)

=n(w

i−1,

wi)/

n(wi

−1)

其中n(w

i−1,

wi) 代表在樣本中wi

−1,w

i 和前後相鄰出現了多少次。n(

wi−1

) 表示在樣本中wi

−1出現了多少次。

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

自然語言處理(N gram語言模型)

n gram語言模型 問題描述 由於公司業務產品中,需要使用者自己填寫公司名稱,而這個公司名稱存在大量的亂填現象,因此需要對其做一些歸一化的問題。在這基礎上,能延伸出乙個 使用者填寫的公司名是否有效的模型出來。目標 問題提出來了,就是想找到一種辦法來 使用者填寫的公司名是否有效?問題分析 要想 使用...

統計自然語言處理(詞法)

語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...