數學之美統計語言模型

2021-07-12 07:52:53 字數 580 閱讀 5296

廣泛應用於：機器翻譯，語音識別，印刷體或手寫體的識別，拼音糾錯，漢字輸入和文獻查詢。

馬爾科夫假設：n元模型（n-1階馬爾科夫假設）：每個詞和前面的n-1個詞有關。

n-1的一元模型就是上下文無關模型。實際應用中最多的是n=3的三元模型，更高階的很少使用。google的羅塞塔翻譯系統和語音搜尋系統使用的是四元模型，該模型儲存於500臺以上的伺服器中。

零概率問題，平滑方法的處理：之所以敢用取樣資料進行觀察的結果來**概率，是因為有大數定理的支援。2023年古德在他老闆圖靈指導下提出在統計中相信可靠的統計資料，對於不可信的統計資料打折扣，同時將折扣出來的一小部分概率給予未看見的事件（零概率）

語料選取：訓練語料和應用資料一致，搜尋質量反而好。例如搜尋選用新聞語料訓練，不如網頁語料好了。訓練語料和應用資料一致，並且訓練量足夠大的情況下，訓練語料的噪音高低也會對模型的效果也會產生一定的影響，所以能用pattern過濾的可以先過濾了。

缺點：但是三元模型甚至更高階的模型也不能覆蓋所有的語言現象。在自然語言中，上下文之間的相關性可能跨度非常大，甚至可以從乙個段落跨到另乙個段落，無論怎麼提高模型的階數，也無可奈何，這就是馬爾科夫假設的侷限性，需要採用其他的一些長程依賴。

數學之美（統計語言模型）

今天看了數學之美這本書，第三章統計語言模型，只是趣味掃盲類閱讀，並不涉及很深的數學知識。記錄之。驗證機器是否智慧型最早提出機器智慧型設想的是計算機之父阿蘭.圖靈，他曾提出乙個方法讓任何機器進行交流，如果人無法判斷自己交流的物件是人還是機器，那就說明這個機器有智慧型了。自然語言處理的彎路最早的科...

自然語言處理統計語言模型（數學之美）

乙個句子是否合理，就看他的可能性大小如何。概括來說假定s表示某乙個有意義的句子，由一連串特定順序排列的詞w1 w2,wn組成，這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...

1《數學之美》第3章統計語言模型

163mail luomgf 目錄2 延伸閱讀統計語言模型的工程訣竅 2.2 模型的訓練零概率問題和平滑方法語料庫 begin p s p w 1,w 2,w3,cdots,w n end 根據條件概率公式 begin p w 1 p w 2 w 1 p w 3 w 1,w 2 cdots,p...