統計語言模型

2021-08-08 23:15:15 字數 561 閱讀 6414

語言模型就是用來計算乙個句子的概率的模型，即p(w1,w2,...wk)。

利用語言模型，可以確定哪個詞序列的可能性更大，或者給定若干個詞，可以**下乙個最可能出現的詞語。

舉個音字轉換的例子來說，輸入拼音串為nixianzaiganshenme，對應的輸出可以有多種形式，如你現在幹什麼、你西安再趕什麼、等等，那麼到底哪個才是正確的轉換結果呢，利用語言模型，我們知道前者的概率大於後者，因此轉換成前者在多數情況下比較合理。

再舉乙個機器翻譯的例子，給定乙個漢語句子為李明正在家裡看電視，可以翻譯為li ming is watching tv at home、li ming at home is watching tv、等等，同樣根據語言模型，我們知道前者的概率大於後者，所以翻譯成前者比較合理。

那麼如何計算乙個句子的概率呢？給定句子（詞語序列）s=w1,w2,...,wk，它的概率可以表示為：

由於上式中的引數過多，因此需要近似的計算方法。常見的方法有n-gram模型方法、決策樹方法、最大熵模型方法、最大熵馬爾科夫模型方法、條件隨機域方法、神經網路方法，等等。

統計語言模型（SLM）

摘自第12講 slm廣泛使用於語音識別和統計機器翻譯領域，利用概率統計理論研究語言。規則方法詞句篇章的生成比如滿足某些規則，不滿足該規則就不應存在。統計方法任何語言片斷都有存在的可能，只是可能性大小不同對於乙個文件片段d w1w2 wn，統計語言模型是指概率p w1w2 wn 求解，根據...

統計語言模型（下）

p wi wi 1 就是這兩個數的比值，再考慮到上面的兩個概率有相同的分母語料庫大小可以約掉，所以p wi wi 1 wi 1,wi wi 1 現在你是否感受到數學的美妙？它把一些複雜的問題變得如此簡單。似乎難以相信，這麼簡單的數學模型能解決複雜的語音識別機器翻譯等問題，而很複雜的文法規則和人...

統計語言模型示例

from collections import counter from jieba import lcut from random import choice corpus 這一生原本乙個人，你堅持廝守成我們，卻小小聲牽著手在預設。感動的眼神說願意，走進我的人生。進了門開了燈一家人，盼來生依然是一...