《數學之美》 第二章 自然語言處理 從規則到統計

2021-10-22 13:45:47 字數 616 閱讀 7422

字母、文字和數字實際上是資訊編碼的不同單位。任何一種語言都是一種編碼方式,語言的語法規則就是編譯碼的演算法。

編碼:我們把要表達的意思通過某種語言的一句話表達出來。解碼:對方懂這門語言,通過這門語言的解碼方法獲得說話人想要表達的資訊。

圖靈測試(turing test): 驗證機器是否有智慧型的方法是,讓人和機器交流,如果人無法判斷自己交流的物件是人還是機器,那麼機器就具有智慧型。

自然語言處理分為兩個階段:第一階段用電腦模擬人腦(類似於仿生學),成果近乎為0;第二階段基於數學模型和統計的方法,取得了進展。

早期的研究主要是在「句法分析」和「語義分析」兩方面。在句法分析上,科學家們通過構造語法分析樹、文法分析器(parser)分析句子的句法。存在兩個方面的問題:1,文法規則的數量不僅龐大, 而且會逐漸增加,甚至會產生矛盾;2,自然語言中有詞義和上下文相關的特性,計算量非常非常大。(context dependent grammar)

在語義處理上,遇到了更大的麻煩:多義性嚴重依賴上下文甚至是常識等等問題。

基於統計方法的核心是通訊系統隱含馬爾可夫模型

只有基於有向圖的統計模型才能很好地解決複雜的句法分析。

《數學之美》 第二章 自然語言處理 從規則到統計

語言的數學本質 語言的出現是為了人類之間的通訊 字母 筆畫 文字 數字實際上是資訊編碼的不同單位,而語言的語法規則則是編譯碼的演算法。計算機出現之後,希望計算機處理自然語言。計算機處理自然語言的方法和人類一樣通過接受資訊 解碼來處理自然語言。機器智慧型 計算機之父阿蘭 圖靈最早提出機器智慧型。圖靈測...

數學之美 第2章 自然語言處理 從規則到統計

任何語言都是一種編碼方式,語言的規則則是編譯碼的演算法。1.計算機能否處理自然語言?如果能,它處理自然語言的方法和人類一樣嗎?yes and yes 上下文相關的 基於語料統計的方法 2.圖靈測試 讓人和機器進行交流,如果人無法判斷自己交流得物件是人還是機器,就說明這個機器是有智慧型的。3.基於規則...

自然語言處理 統計語言模型(數學之美)

乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...