自然語言處理資訊模型

今天拜讀了數學之美的第一章，例舉的例子感覺真是淺顯易懂，這裡不禁要對吳軍老師的寫作功底拜服，下面談談對資訊模型的理解，數字、文字和語言作為資訊的載體，他們的目的都是記錄和傳播資訊，就像我們的老祖先一樣烏拉烏拉幾句，對方就明白了，你丫的罵我，拿起石頭就扔過去了，其實他們的這種交流可以概括為

資訊1--編碼（也就是怪叫）---資訊2（聽到的聲音）-----解碼----資訊1（得到原始資訊），其實這就是乙個簡單的資訊模型資訊1剛開始也就是我們的資訊源 -- 資訊2也就是聲音可以看做通道，看到沒我們的老祖先也懂得合理利用資訊模型。

當我們祖先的叫聲種類和形式越來越多時，事情也越來越多時大家都記不住了怎麼辦，於是文字、數字變產生了，用來記錄，大家抓的兔子越來越多，大家的money越來越多，怎麼辦，剛開始還可以數手指頭，手指頭數著數著不夠了怎麼辦，聰明的現代人肯定會說腳趾頭啊，說這句的人太聰明了，其實瑪雅人就是這樣的。於是大於10的怎麼辦，必須有一種形式啊，於是進製變產生了，笨笨的我們的祖先還有歐洲的祖先，不會用腳指頭，於是便逢十進一 10進製變產生了，聰明的瑪雅人知道腳趾頭不夠用了才想到進製，於是他們便是20進製，想想瑪雅的孩子多苦，背誦乙個乘法表19*19那就是乙個圍棋盤啊，而我們只需要九九乘法口訣就搞定一切了。看樣子有時太聰明也是不好滴。但是在採取十進位制的時候由於我們的祖先比較財富比較多，於是我們的十進位制是採用乘法表示例如 99999=9*10000+9*1000 +9*100+9*10 +9 那我們七個數字就可以表示一百萬啊，當時作為先進的歐洲代表羅馬人由於財富很少，但是在他們眼裡那也是很有錢了，他們採用的是加減法表示也就是乙個數字的值是10個數字的中選取幾個數字的和或者差，可想而知，他們要表示1百萬那手得抽經了，但是由於他們過著茹毛飲血的生活物質及其匱乏，他們就是這樣堅持了幾千年，認為加減法完全夠了，知道後來工業革命後，有很多錢了有很多鈔票了，這才發現寫不過來，才發明了m在m上劃線表示幾萬和幾十萬。這裡中國的個十百千兆和羅馬人的ⅰⅱⅲⅳⅴ都引入了樸素編碼的概念，在中國編碼規則是乘法，在羅馬是加法，明顯中國的比羅馬的做法要高明很多，編碼更有效。當我們的詞彙越來越多時，多的我們記不住的時候產生新的詞彙有點不合適了，於是古人便使用乙個字或者乙個詞風別代表多個意思如

日名詞太陽、表示太陽東昇西降也就是一天，還有就是罵人的意思了。於是概念的一次概括和歸類就開始了，這種概念的聚類，在原理上與我們今天的自然語言處理或者機器學習的聚類有很大的相似性。

古代人的在木有發明紙張以前，都是靠竹簡，你想想老以前始皇帝皮奏摺都是找人用筐來計量的，都是幾筐幾筐的，你想想大臣們刻幾個字多麼不容易，所以我覺得這也是中國文言文為什麼流行的原因，精簡、資訊量大，類似於我們今天的電報，你父病危速歸，也就是資訊熵非常大，也就是可以通過簡單幾個字就明白全部意思。關於資訊熵後面再扯。古人這麼不容易，天天刻竹簡，於是有人想偷懶，慢慢的把常用的字的筆畫越來少，越來越好寫，剛開始大家還不屑，你這孩子怎麼能隨便修改文字，那可是倉頡大聖創下的啊，慢慢的大家都絕得筆畫少不錯，也就是慢慢接受了，其實是手痛給累的。因此我們現在的漢字是常用的筆畫很少很精簡，容易寫，那些生僻字筆畫多難寫，這其實很符合最短編碼原理(熟悉計算機的同學可能知道霍夫曼樹),書寫使用文言文，而我們日常確使用白話交流，這中現象和通訊工程的原理又類似，通道寬，資訊不必壓縮，通道窄，則資訊必須壓縮，古人交流時通道寬，傳輸不費力，不用壓縮直接白話文交流，而書寫，想象幾籮筐竹簡吧，還是壓縮壓縮少些幾個字吧，這就需要古人把白話文壓縮成當時能看懂的文言文，書寫，閱讀者在解壓縮，看看我們的古人多麼聰明，雖然他們不懂資訊理論。但是漢朝以後的大儒們對論語的解讀確實各有各的看法，因此從這點看資訊熵的大小也根據時代有關呢

自然語言處理資訊模型

自然語言處理序列模型

自然語言處理（N gram語言模型）

自然語言處理（三）主題模型

自然語言處理 資訊模型

自然語言處理 序列模型

自然語言處理（N gram語言模型）

自然語言處理（三） 主題模型

相關推薦

自然語言處理資訊模型

自然語言處理序列模型

自然語言處理（三）主題模型