統計語言模型(下)

2021-07-31 15:59:19 字數 513 閱讀 9289

p(wi|wi-1)就是這兩個數的比值,再考慮到上面的兩個概率有相同的分母(語料庫大小),可以約掉,所以p(wi|wi-1)=

(wi-1,wi)/(wi-1)。

現在你是否感受到數學的美妙?它把一些複雜的問題變得如此簡單。似乎難以相信,這麼簡單的數學模型能解決複雜的語音識別、機器翻譯等問題,而很複雜的文法規則和人工智慧卻做不到。其實很多語音學家也質疑過這種方法的有效性,但事實證明,統計語言模型比任何已知的借住規則的方法更有效。

統計語言模型的延伸,包括n-1階馬爾可夫假設,對應的語音模型稱為n元模型。事實上實際應用中最多的就是三元模型。因為n元模型的複雜度幾乎是n的指數函式,當n從1到2,再從2到3時,模型效果顯著上公升,而從3到4時,效果就不是很明顯了,資源的耗費卻增加得非常快。google的羅塞塔翻譯系統和語音搜尋系統,使用的四元模型,該模型儲存於500臺以上的伺服器中。還有模型的訓練、零概率問題和平滑問題,大家可以自己去了解一下。小結:統計語言模型在形式上很簡單,也很容易理解,但是裡面的學問很深,乙個專家可以在這方面研究很多年,比如延伸裡的這些東西。

統計語言模型

語言模型就是用來計算乙個句子的概率的模型,即p w1,w2,wk 利用語言模型,可以確定哪個詞序列的可能性更大,或者給定若干個詞,可以 下乙個最可能出現的詞語。舉個音字轉換的例子來說,輸入拼音串為nixianzaiganshenme,對應的輸出可以有多種形式,如你現在幹什麼 你西安再趕什麼 等等,那...

統計語言模型(SLM)

摘自 第12講 slm廣泛使用於語音識別和統計機器翻譯領域,利用概率統計理論研究語言。規則方法 詞 句 篇章的生成比如滿足某些規則,不滿足該規則就不應存在。統計方法 任何語言片斷都有存在的可能,只是可能性大小不同 對於乙個文件片段d w1w2 wn,統計語言模型是指概率p w1w2 wn 求解,根據...

統計語言模型示例

from collections import counter from jieba import lcut from random import choice corpus 這一生原本乙個人,你堅持廝守成我們,卻小小聲牽著手在預設。感動的眼神說願意,走進我的人生。進了門開了燈一家人,盼來生依然是一...