漢字為何不能用筆畫編碼 資訊理論系列

2021-05-21 19:34:55 字數 1814 閱讀 4444

漢字的資訊熵很大幾乎成了漢字不能在資訊高速公路上像英語一樣馳騁的絆腳石,就好像高速公路總是不關照巨型車一樣,巨型車總是被限速,繳納更高的費用等所牽絆,英語就好像一輛保時捷911,而漢語就好像一輛巨型重卡,更為不幸的是,它們還是跑在中國的高速公路上。其實我們都會注意到,漢字資訊熵確實很大,一方面漢字攜帶的資訊量比英語大得多,我們的漢字總是不同的讀法不同的語氣代表不同的含義,但是這並不是造成漢字在編碼中被冷落的原因,它被冷落的原因在於它的字形。

漢字是方塊的,遵循從上到下從左到右的順序,它是乙個二維的平面結構,在水平和垂直兩個方向延展,不像英語是個水平的線性結構,漢字擁有獨特的間架結構,比如左右結構,上中下結構等等,而英語卻沒有,英語總是在水平方向簡單的延伸,這個區別導致漢字更加緊湊,乙個方塊的空間可以集合很多的語義,不過這也是漢字不能被簡單編碼的根本原因,我們知道英語中最基本的元素是字母,一共26個字母,編碼中可以對這26個字母分別編碼,然後編碼的組合就代表了字母的組合,除了字母的編碼之外英語編碼以及在計算機內部實現沒有任何額外的問題,它沒有位置問題,因為一維結構而且從左向右延展會使得編碼預設按照這個約定排列,現在我們來看一下漢字的情況,漢字最基本的元素是筆畫,筆畫的數量不會多於英語的字母,如果就到此為止,那麼我們按照筆畫來編碼的話,漢字的資訊熵不會很高,而且比英語還低,恰恰就是在這裡漢字在現代計算機編碼系統裡出了問題,漢字是二維的,增加了乙個緯度,這樣就增加了兩個自由度,而資訊的定義就是消除不確定性,自由度增加等於增加了不確定性,按照熱力學解釋,自由度增加帶來了熵增加,在資訊理論中,資訊獲得就是自由度的減少,就是一種負熵,也就是說,資訊熵表示主體付出的努力,由此可見除了筆畫編碼問題,漢字中還有乙個英語中沒有的問題就是間架結構問題,也就是說誰也不能預設漢字筆畫的排列順序,並且筆畫的長短不同就會出現不同的字,筆畫的不同書寫順序也會成為不同的字,比如「土」和「士」以及「幹」,這些規則誰來定義,漢字基本反映了我們人類特有的思維過程,當代的計算機根本辦不到這些,因此筆畫編碼不單單是將筆畫簡單編碼就拉倒了,還有一系列的組合規則,結構規則以及排列規則,這些規則太複雜了,計算機根本無法完成這些任務的計算,因此漢字只能單個字編碼,這裡就出現了問題,漢字總量雖然不多,但是完全要參加編碼,這就比英語的26個元素多得多了,因此漢字的資訊熵非常大。隨著新的漢字引入,其資訊熵還會更大。

前面說過,漢字是方塊的形狀,二維的延伸結構使得它更緊湊,相同的空間可以代表更多的含義,舉個例子,英語中的兩個單詞只有兩種排列方式,而漢字卻有四種方式,回憶前面說的二進位制理論就會發現漢字的資訊熵確實很大。有個問題現在可以說一下了,漢字組合成的詞語一般都很短,而且總是可以用已有的漢字組合來描述新詞,而英語就不同了,如果英語也用現有的單詞組成新詞,那麼它的二維結構會使單詞越來越長,因此英語往往用發明新詞的方式來進行擴充套件,比如,牛,奶牛,母牛,公牛,野牛,在漢字中都有牛字,分別加上一些個性的東西成為另乙個概念,而在英語中這些詞卻是幾乎不相關的單詞,這就引出了本文的另乙個問題,就是漢字與物件導向。

漢字怎麼會和物件導向聯絡呢?在詳述之前我們來做乙個模擬,漢字相當於物件導向的語言,而英語相當於組合語言,組合語言的基本元素就是cpu指令,必須過程化執行,頂多用個jmp或者call,而物件導向語言寫的**中卻呈現了繼承,包含,等多維結構,看看c++的菱形繼承就知道了,即便沒有那種不提倡的菱形,在oo設計圖上,也會充斥著很多的類圖,這些類錯綜複雜相聯絡,最終這個類圖就是**本身,而組合語言設計程式時主要用流程圖來進行,純粹的先來後到的過程化處理。我們看一下上面的「牛」的例子,牛可以作為基類,然後奶牛,母牛作為牛的派生類,擁有了自己的特徵,看看是不是都有「牛」這個字,在一篇文章中看到一句話「共性上加個性就是新概念;組合性非常強;」,這句話非常形象,也非常好。漢字基本是人類思維的真實反映,因此你就別指望計算機一台機器可以模擬這種真實反應,想想機器可以直接執行「類的方法」嗎?機器執行的過程就好像英語的過程,很精確但是卻很呆板,資訊熵低的目的在於容易識別,熱消耗低而不是別的什麼。

lvs為何不能完全替代DNS輪詢

任何一台機器掛了,服務受不受影響 能否通過增加機器,擴充系統的效能 反向 負載均衡 請求是否均勻分攤到後端的操作單元執行 nginx 乙個高效能的web server和實施反向 的軟體 lvs linux virtual server,使用集群技術,實現在 linux作業系統層面 的乙個高效能 高可...

謠言易碎 諾基亞為何不能投靠Android陣營?

據國外科技部落格稱,諾基亞近期正在招募從事linux的工程師,並以此推測諾基亞在未來可能會投奔谷歌的android陣營,所幸的是,諾基亞 公關負責人doug dawson出來及時否認了這個猜測,並稱之為謠言。其實筆者在看到這個訊息的時候,並未感到意外,畢竟之前這種論調就出現過,只是這次出自較知名的科...

冷知識 為何不能睜眼打噴嚏

打噴嚏是人體的一種防禦性呼吸反射,它從深吸氣開始,然後膈肌突然收縮,產生一急速有力的呼氣動作,這時,人會張大嘴巴,一股氣體從口鼻衝出,於是就會啊嚏啊嚏打噴嚏了。打噴嚏時為什麼會閉眼睛?這是乙個很有意思的問題。一方面,打噴嚏時要用很大的力量逐出氣體,肺內 口腔內 鼻腔內都有很大的壓力,不單膈肌和肋間肌...