(一)文字和語言 數字和資訊(從進化史看自然語言)

2021-09-23 07:58:03 字數 3553 閱讀 5461

前言:數字、文字和自然語言一樣,都是資訊的載體,它們之間原本有著天然的聯絡。語言和數學的產生都是為了同乙個目的——記錄和傳播資訊。然而,為什麼直到半個多世紀前夏農博士提出資訊理論後,人們才開始把數學和資訊系統自覺的聯絡起來?在此之前,數學和語言學幾乎是沒有交集的。

讓我們從進化史來看自然語言原理:

通訊的原理和資訊傳播的模型

我們的祖先在長成我們今天的模樣時,就開始使用和傳播資訊了。就像我們常在動物園看到的動物發出奇怪的聲音,早期的人類也喜歡發出含糊的聲音。最初可能只是喜歡這樣發聲,漸漸地人類開始用這種聲音來傳播資訊,比如給同伴提示「這裡有獵物,快來!」然後發出一串嗚嗚的聲音。

其實在這裡,資訊的產生、傳播、接收和反饋,與今天最先進的通訊在原理上並無二致!

讓我們來看看資訊傳播的模型:

圖1:原始人通訊的方式和今天通訊模型沒有什麼不同

隨著資訊需要記載的越來越多,不再是幾種不同的聲音就能完全覆蓋,語言就此產生。人們的生活經驗作為一種特定的資訊,其實是那個年代最為寶貴的財富,通過口述的語言傳給了後代。

聚類

我們的祖先迅速地學習新鮮事物,語言越來越豐富,越來越抽象。當語言和詞彙多到一定程度後,人類僅靠大腦已經記不住所有詞彙了,於是,高效記錄資訊的需求就產生了,這便是文字的起源。

最早的象形文本,是古埃及人用圖形來表示事物,比如下圖的古埃及《亞尼的死者之書》,以超出想象的完好在歷史的長河中儲存了下來:

圖二:《亞尼的死者之書》,目前儲存在大英博物館

然而,隨著文明的進步,資訊量的增加,埃及的象形文本增加到了一定限制數量(因為乙個人很難再記憶這麼多的文字)。於是,概念的第一次概括和歸類就開始了。中國的象形文本中,「日」 本意是太陽,也同時是我們將的一天這個概念。

這種概念的聚類,在原理上與今天自然語言處理或者機器學習的聚類有很大的相似性,只是在遠古,完成這個過程需要上千年;而今天,可能只需要幾天甚至幾小時。

多義性和利用上下文消除歧義性

文字按照意思來聚類,最終會帶來一些歧義性,也就是說有時候弄不清乙個多義字在特定環境下到底表示其中的哪個含義。而解決這個問題的方法,過去的先生和今天的學者沒什麼不同,都是依靠上下文。正如中國古代儒家經典的注釋和正義,其實都是在按照自己理解做消除歧義性的工作。

今天的情況非常類似,對上下文建立的概率模型再好,也有失靈的時候。這些是語言從產生伊始就固有的特點。

雙語對照文字,語料庫和機器翻譯

在這裡,要講一段小故事,

在埃及的象形文本文本失傳2023年之後,2023年,拿破崙的遠征軍來到埃及,隨軍有上百名學者。其中乙個學者在乙個叫「羅塞塔」(rosetta)的地方,發現了一塊破碎的古埃及石碑:用了三種語言記載了一次重大事件,他意識到了這塊石碑的重要性,於是讓隨行的科學家拓下文字帶回法國。2023年,法國在埃及戰敗,石碑又跑到了英國人的手中,不過那個科學家拓下的文字卻在法國和其他歐洲國家的學者傳閱,直到21年後的2023年,法國語言學家商博良破解了羅塞塔上的古埃及的象形文本。

正是這次象形文本的破譯。才讓我們了解到了古埃及遠在西元前32世紀至今的歷史。而在自然語言處理上卻可以得到兩點指導意義:

資訊的冗餘是資訊保安的保障。正如那塊石碑上,有三種不同的語言來記錄相同的事件。

語言的資料,我們稱為語料,尤其是雙語或者多語的對照語料對翻譯至關重要,在這個方向上,我們並沒有比商博良走的更遠。

了解了羅塞塔石碑的故事,對於今天很多翻譯軟體和服務都叫「羅塞塔」就不會感覺到奇怪了,這其中就包括google的機器翻譯和世界上銷量最大的pc機上的翻譯軟體。

數字和文字的分離

我們的祖先剛開始計數的時候,並沒有完整的數字系統,基本上都是數著手指頭,這也就是我們今天使用十進位制的原因。在祖先們發現十個手指頭不夠用了,雖然最簡單的方法就是把腳指頭也算上,雖然也有部落曾這麼做過,不過已經滅絕了。我們的祖先很聰明,發明了進製。

對於進製,中國人和羅馬人都有著不同的單位規定,中國人就是用十百千等等,而羅馬人採用的是左減右加,比如iv表示5-1=4,而vi表示5+1=6.

不過,最有效率的計數數字的方式是古印度人發明的,也就是現在包括0在內的10個阿拉伯數字,之所以叫阿拉伯數字,是因為這些數字是阿拉伯傳入歐洲的,當時歐洲人並不知道真正發明的人是古印度,而把功勞給了阿拉伯人。

阿拉伯數字的革命性不僅在於它的簡潔有效,而且標誌著數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年裡沒有重合的軌跡,而且越走越遠。

(信源)編碼和最短編碼

從象形文本到拼音文字對於文明來說,是乙個大的飛躍,因為人類在描述物體的方式上,從物體的外表進化到了抽象的概念,同時還不自覺地採用了對資訊的編碼。不僅如此,我們的祖先對文字的編碼非常合理:常用字短,生僻字長。

在蔡倫發明紙張以前,書寫文字並不是一件容易的事。以中文為例,在東漢之前要將文字刻在其他物件比如龜殼、石碑和竹簡上。由於刻乙個字的時間相當長,成本也很高,因此要惜墨如金。這就使得我們的古文(書面文字)非常簡潔,但是也很難懂,而同時期的口語卻和今天的白話差別不大。

圖四:蔡倫造紙,中國的驕傲

這種現象非常符合今天資訊科學的一些基本原理,就是在通訊時,如果通道較寬,資訊不必壓縮,就可直接傳遞;而如果通道很窄,資訊傳遞前需要盡可能壓縮,然後在接收端進行解壓縮。在古代兩個人講話就是乙個寬通道,而文言文本身是通道壓縮過程,將文言文解釋清楚就是解壓縮的過程。

由此可見,在資訊理論尚未被發明的幾千年前,中國人已經無意識地遵照它的規律行事了。

校驗碼

古猶太人為了虔誠地抄寫《聖經》,同時保證自己抄寫的文字沒有出錯,非常聰明的發明了一種檢驗的方式:他們把每乙個希伯來字母對應乙個數字,這樣每行文字加起來便得到乙個特殊的數字,對於行這樣,對於列也這樣,因而這樣每行每列的校驗碼就算出來,如果有所誤差,則表示抄寫錯誤,可以很快定位到出錯的地方。

古猶太人這背後的校驗原理,和我們今天的各種校驗是相同的。

語言對?還是語法對?

在這裡不得不提乙個小故事:

莎士比亞的作品在他的時代完全是通俗而大眾化的,其中包括大量違反古語法的名句,那個時代就開始有人試圖完善(其實是篡改)莎士比亞戲劇。可今天這些語言不但沒有消失,反而成了經典,而試圖完善他著作的人卻早已為大眾所遺忘。

語言堅持從真實的語句文字(稱為語料)出發,而語法堅持從規則出發,經過三四十年的爭論,語言學最終,本著時間是檢驗真理的唯一標準,自然語言的成就最終宣布了前者的獲勝。而具體的故事,之後還會在後面的部落格中說到。

Chapter1 文字和語言 vs 數字和資訊

1 不同的文字系統在記錄資訊上的能力是等價的。進一步講,文字只是資訊的載體,而非資訊本身。2 資訊的冗餘是資訊保安的保障。羅塞塔石碑上的內容是同一資訊重複三次,因此只要有乙份內容完好保留下來,原有的資訊就不會丟失,這對通道編碼有指導意義。3 語言的資料,我們稱之為語料,尤其是雙語或多語的對照語料對翻...

數學之美 第一章 文字和語言vs數字和資訊

早期人類交流舉例,用某種特定的聲音表示 那裡有只熊 同伴 呀呀 回應兩聲。早期人類的交流方式與現在的通訊中的資訊傳播模型相同。隨著文明的進步,資訊量增加了,但是因為沒有人能夠記住大量的文字,因此出現了概念的 聚類 比如,在中國的象形文本中,日 本意是太陽,同時又指的是一天 在古代埃及的象形文本中,讀...

數學之美 第1章 文字和語言 vs 數字和資訊

語言和數學的產生都是為了同乙個目的 記錄和傳播資訊 1.文字的起源 當語言和詞彙積累到一定程度 記不住 的時候,產生了高效記錄資訊的需求 文字。2.文字發展的階段 3.翻譯的起源 不同文明下的人們需要交流 通訊 產生的需求 翻譯成立的前提條件 不同的文字系統在記錄資訊的能力上時等價的。羅塞塔石碑 三...