數學之美（統計語言模型）

今天看了數學之美這本書，第三章統計語言模型，只是趣味掃盲類閱讀，並不涉及很深的數學知識。記錄之。。。

驗證機器是否智慧型

最早提出機器智慧型設想的是計算機之父阿蘭.圖靈，他曾提出乙個方法：讓任何機器進行交流，如果人無法判斷自己交流的物件是人還是機器，那就說明這個機器有智慧型了。

自然語言處理的彎路

最早的科學家們在自然語言處理領域中，侷限在人類學習語言的方式上，讓電腦去模擬人腦，那20多年的成果幾乎為零。因為那時候，全世界對自然語言處理的研究都陷入了乙個誤區！那時候，科學家們怎麼讓計算機理解語言呢：規則和語法。企圖概括自然語言語法，然後用計算機的演算法描述，從而讓計算機理解語言。

自然語言處理的正確道路

經過了大約15年的時間，科學家們才完成了從彎路規則到正確道路-統計的轉變。漫長的15年，我們必須承認，乙個新的研究方法的成熟確實需要很多年，然後，第二個作者提出的原因也很有意思：新的方法代替傳統的方法，需要等原有的一批語言學家退休。。。

統計語言模型

在自然語言處理走上正確的研究道路—統計之後，就很快提出了統計語言模型，它是今天所有自然語言處理的基礎，並且被廣泛應用於機器翻譯、語音識別、拼音糾錯、文獻查詢等。

用數學的方法描述語言的規律，判斷乙個句子是否合理，就看他的可能性大小如何，可能性就用概率來衡量。

簡而言之就是：乙個句子總的概率 = 第乙個詞的概率 * 第乙個詞存在情況下第二個詞的概率 * 第一二個詞存在情況下第三個詞的概率*.......

而現在經常用到的三元模型，google的羅塞塔翻譯系統和語音搜尋系統使用的是四元模型。

這就是數學的魅力，複雜的語言也可以使用數學來解決！