統計語言模型

2021-08-08 23:15:15 字數 561 閱讀 6414

語言模型就是用來計算乙個句子的概率的模型,即p(w1,w2,...wk)。

利用語言模型,可以確定哪個詞序列的可能性更大,或者給定若干個詞,可以**下乙個最可能出現的詞語。

舉個音字轉換的例子來說,輸入拼音串為nixianzaiganshenme,對應的輸出可以有多種形式,如你現在幹什麼、你西安再趕什麼、等等,那麼到底哪個才是正確的轉換結果呢,利用語言模型,我們知道前者的概率大於後者,因此轉換成前者在多數情況下比較合理。

再舉乙個機器翻譯的例子,給定乙個漢語句子為李明正在家裡看電視,可以翻譯為li ming is watching tv at home、li ming at home is watching tv、等等,同樣根據語言模型,我們知道前者的概率大於後者,所以翻譯成前者比較合理。

那麼如何計算乙個句子的概率呢?給定句子(詞語序列)s=w1,w2,...,wk,它的概率可以表示為:

由於上式中的引數過多,因此需要近似的計算方法。常見的方法有n-gram模型方法、決策樹方法、最大熵模型方法、最大熵馬爾科夫模型方法、條件隨機域方法、神經網路方法,等等。

統計語言模型(SLM)

摘自 第12講 slm廣泛使用於語音識別和統計機器翻譯領域,利用概率統計理論研究語言。規則方法 詞 句 篇章的生成比如滿足某些規則,不滿足該規則就不應存在。統計方法 任何語言片斷都有存在的可能,只是可能性大小不同 對於乙個文件片段d w1w2 wn,統計語言模型是指概率p w1w2 wn 求解,根據...

統計語言模型(下)

p wi wi 1 就是這兩個數的比值,再考慮到上面的兩個概率有相同的分母 語料庫大小 可以約掉,所以p wi wi 1 wi 1,wi wi 1 現在你是否感受到數學的美妙?它把一些複雜的問題變得如此簡單。似乎難以相信,這麼簡單的數學模型能解決複雜的語音識別 機器翻譯等問題,而很複雜的文法規則和人...

統計語言模型示例

from collections import counter from jieba import lcut from random import choice corpus 這一生原本乙個人,你堅持廝守成我們,卻小小聲牽著手在預設。感動的眼神說願意,走進我的人生。進了門開了燈一家人,盼來生依然是一...