數學之美學習筆記(1)

2021-07-09 11:01:56 字數 692 閱讀 3737

第1章    文字和語言vs數字和資訊

文字按照意思來聚類,最終回帶來一些歧義。上下文建立的概率模型也會出現錯誤。

羅塞塔石碑對自然語言處理的兩點指導意義:

1.      資訊的冗餘是資訊保安的保障。

2.      語言的資料,我們稱之為語料,尤其是雙語或者是多語的對照語料對翻譯至關重要,是我們從事機器翻譯研究的基礎。

最早的計數工具—史瓦帝尼的樂邦博古

十進位制—編碼—

象形文本—拼音文字

常用字短,生僻字長------資訊理論中的最短編碼理論---語法、語言(自然語言處理認為語言是編碼)

資訊傳遞:通道較寬,不必壓縮—講話快

通道較窄,進行壓縮—書信慢--------

資訊校驗(古猶太人)

第2章    自然語言處理—從規則到統計

字母(筆畫)、文字和數字實際上都是資訊編碼的不同單位。語言是編碼方式,語言規則是編譯碼的演算法。

機器智慧型—電腦科學支付阿蘭.圖靈提出

自然語言處發展的兩個階段(60多年):

1.20世紀50年代到20世紀70年代,走彎路的階段。用電腦模擬人腦,

2.之後,基於數學模型和統計的方法

不是靠計算機理解了自然語言,而是通過數學,更準確的說是靠統計

上世紀70年代的基於統計的方法核心模型是通訊系統加隱含馬爾可夫模型

1988,基於統計的機器翻譯方法

數學之美 學習數學,是一項長期投資

對絕大多數人來說,數學是一生中學得最多的一門課程 從小學到中學,從中學到大學,包括到了研究生的學習階段,都在學習數學。你可能會問,為什麼要花這麼多時間來學習數學?又為什麼一定要努力學好數學呢?書到用時方恨少真的是這樣!李開復博士曾經說過後悔沒有多修一些數學課程,那時沒有體會,當學機器學習遇到凸優化 ...

數學之美筆記1

文字和語言vs數字和資訊 不同的文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體,而非資訊本身 羅塞塔石碑 雙語對照的指導意義 1.資訊的冗餘是資訊保安的保障 2語言的資料,也就是語料,尤其是雙語或者多語的對照語料對翻譯至關重要,是機器翻譯研究的基礎 包括0在內的10個阿拉伯數字是印度人發明。...

《數學之美》筆記1

文字和數字,語言和資訊,從產生的源泉來看,它們有著天然的聯絡。半個多世紀前,夏農博士發明資訊理論,才真正把數學和資訊系統聯絡起來,這也為現代資訊處理技術的發展提供了數學理論支援。原始時代人類通過不同的聲音來傳遞不同的資訊,這就是最原始的資訊形式,只是那時候通過聲音即可傳遞所要傳遞的少量資訊,因此就沒...