數學之美 第2章 自然語言處理 從規則到統計

2022-03-26 06:12:23 字數 481 閱讀 9824

任何語言都是一種編碼方式,語言的規則則是編譯碼的演算法。

1. 計算機能否處理自然語言?如果能,它處理自然語言的方法和人類一樣嗎?  yes and yes(上下文相關的、基於語料統計的方法)

2. 圖靈測試:讓人和機器進行交流,如果人無法判斷自己交流得物件是人還是機器,就說明這個機器是有智慧型的。

3. 基於規則的句法分析(「鳥飛派」):語法分析、語義分析——>失敗:語法規則過多,計算量太大(甚至相互矛盾)+ 語義的多義性嚴重依賴上下文

高階程式語言:人為設計的、便於計算機解碼的上下文無關文法;

自然語言:詞義和上下文相關,即上下文有關文法(根本原因)

4. 基於統計的方法的核心模型:通訊系統 + 隱馬爾科夫模型

應用進展:語音識別(弗里德里克·賈里尼克)——> 詞性分析 ——> 機器翻譯(最初效果很差,隨著計算能力的提高和資料量的增加,統計模型的正確性逐漸顯現)

轉變的推動力:新的應用依賴於資料的作用和淺層的自然語言處理工作

自然語言處理 統計語言模型(數學之美)

乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...

《數學之美》 第二章 自然語言處理 從規則到統計

語言的數學本質 語言的出現是為了人類之間的通訊 字母 筆畫 文字 數字實際上是資訊編碼的不同單位,而語言的語法規則則是編譯碼的演算法。計算機出現之後,希望計算機處理自然語言。計算機處理自然語言的方法和人類一樣通過接受資訊 解碼來處理自然語言。機器智慧型 計算機之父阿蘭 圖靈最早提出機器智慧型。圖靈測...

《數學之美》 第二章 自然語言處理 從規則到統計

字母 文字和數字實際上是資訊編碼的不同單位。任何一種語言都是一種編碼方式,語言的語法規則就是編譯碼的演算法。編碼 我們把要表達的意思通過某種語言的一句話表達出來。解碼 對方懂這門語言,通過這門語言的解碼方法獲得說話人想要表達的資訊。圖靈測試 turing test 驗證機器是否有智慧型的方法是,讓人...