自然語言處理統計語言模型（數學之美）

乙個句子是否合理，就看他的可能性大小如何。

概括來說：假定s表示某乙個有意義的句子，由一連串特定順序排列的詞w1

,w2,

...,

wn組成，這裡的n表示句子的長度。則概率p(s)表示上面句子的合理性。 p(

s)=p

(w1,

w2,.

..,w

n)利用條件概率公式： p(

w1,w

2,..

.,wn

)=p(

w1)p

(w2|

w1)p

(w3|

w1,w

2)..

.p(w

n|w1

,w2,

...,

wn−1

) 上式中，p(

w1) 表示第乙個詞出現的概率，p(

w2|w

1)是在已知第乙個詞的前提下，第二個詞出現的額概率，以此類推。簡答的看一下上面的公式，可以發現除了p(

w1) 以及後面的p(

w2|w

1)比較好算以外，其他的項計算難度都比較大。

**科學家馬爾科夫給出了乙個假設—–假設任意乙個詞wt

出現的概率隻同它前面的詞wt

−1有關。於是上面的公式就可以簡化為： p(

w1,w

2,..

.,wn

)=p(

w1)p

(w2|

w1)p

(w3|

w2).

..p(

wn|w

n−1)

上式對應的統計語言模型是二元模型。

對於上面公式的求解，可以利用貝葉斯公式： p(

wi|w

i−1)

=p(w

i−1,

wi)/

p(wi

−1)

其中p(w

i−1,

wi) 可以用樣本的相對頻率(樣本數量足夠)來統計。具體公式如下： p(

wi−1

,wi)

=n(w

i−1,

wi)/

n(wi

−1)

其中n(w

i−1,

wi) 代表在樣本中wi

−1,w

i 和前後相鄰出現了多少次。n(

wi−1

) 表示在樣本中wi

−1出現了多少次。

統計自然語言處理自然語言處理是什麼？

自然語言是指中文英語西班牙語法語德語等等語言，作為人們日常使用的其他語言，它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言，而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介，如果人類失去交流的能力，文明就失去了意義。總的來說，自然語言就是指人...

自然語言處理（N gram語言模型）

n gram語言模型問題描述由於公司業務產品中，需要使用者自己填寫公司名稱，而這個公司名稱存在大量的亂填現象，因此需要對其做一些歸一化的問題。在這基礎上，能延伸出乙個使用者填寫的公司名是否有效的模型出來。目標問題提出來了，就是想找到一種辦法來使用者填寫的公司名是否有效？問題分析要想使用...

統計自然語言處理（詞法）

語法可分為詞法和句法詞法句法現代漢語句法的主要內容包括，句子的基本結構句子的類別句子的表達形式三個方面。句子的基本結構也叫基本成分，包括主語謂語賓語定語狀語補語六種成分。其中的主語謂語賓語是主要成分，定語狀語補語是附加修飾成分。而主語和謂語是句子的必要成分，缺一則不能成為...

自然語言處理 統計語言模型（數學之美）

統計自然語言處理 自然語言處理是什麼？

自然語言處理（N gram語言模型）

統計自然語言處理（詞法）

相關推薦

自然語言處理統計語言模型（數學之美）

統計自然語言處理自然語言處理是什麼？