《數學之美》 第二章 自然語言處理 從規則到統計

2021-08-11 14:38:57 字數 779 閱讀 1026

語言的數學本質:

語言的出現是為了人類之間的通訊;字母、筆畫、文字、數字實際上是資訊編碼的不同單位,而語言的語法規則則是編譯碼的演算法。

計算機出現之後,希望計算機處理自然語言。計算機處理自然語言的方法和人類一樣通過接受資訊、解碼來處理自然語言。

機器智慧型:

計算機之父阿蘭·圖靈最早提出機器智慧型。

圖靈測試:

讓人和機器進行交流,如果人無法判斷自己的交流物件是人還是機器,就說明機器存在智慧型了。

早起自然語言處理:

普遍認為要讓機器完成翻譯或者語言識別功能等只有人類才能做到的事情,就必須要讓計算機理解自然語言。——「鳥飛派」。計算機要理解語言需要兩件事:分析語句和獲取語義

基礎層(句法分析/語義分析)→認知層(自然語言理解)→應用層(語言識別、機器翻譯、自動問答、自動摘要)

分析句子採用的語法規則通常被稱為重寫規則,早期是由人工總結文法規則來幫助機器翻譯的。但是想通過文法規則覆蓋全部語句甚至一部分語句都是不可能的,有的文法規則甚至會出現矛盾,還要說明各個規則特定的使用環境。就算寫出涵蓋所有自然語言現象的語法規則集合,也很難用計算機來解析。

從規則到統計:

基於統計的方法最初是為了提高語音識別的識別率,之後逐漸被認可。核心模型是通訊系統加隱含馬爾地夫模型。最初的統計的方法因為沒有足夠的統計資料,也沒有足夠強大的模型,效果並不是很明顯,隨著計算能力的提高和資料量的不斷增加,基於統計方法的模型最終戰勝了基於規則方法學派。

小結:

基於統計的自然語言處理方法,在數學模型上與通訊是相同的,因此在數學意義上自然語言處理又和通訊聯絡在了一起。

《數學之美》 第二章 自然語言處理 從規則到統計

字母 文字和數字實際上是資訊編碼的不同單位。任何一種語言都是一種編碼方式,語言的語法規則就是編譯碼的演算法。編碼 我們把要表達的意思通過某種語言的一句話表達出來。解碼 對方懂這門語言,通過這門語言的解碼方法獲得說話人想要表達的資訊。圖靈測試 turing test 驗證機器是否有智慧型的方法是,讓人...

數學之美 第2章 自然語言處理 從規則到統計

任何語言都是一種編碼方式,語言的規則則是編譯碼的演算法。1.計算機能否處理自然語言?如果能,它處理自然語言的方法和人類一樣嗎?yes and yes 上下文相關的 基於語料統計的方法 2.圖靈測試 讓人和機器進行交流,如果人無法判斷自己交流得物件是人還是機器,就說明這個機器是有智慧型的。3.基於規則...

自然語言處理 統計語言模型(數學之美)

乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...