數學之美系列 4 怎樣度量資訊

2022-02-28 18:17:41 字數 2082 閱讀 4394

發表者:吳軍,google 研究員

前言: google 一直以 「整合全球資訊,讓人人能獲取,使人人能受益」 為使命。那麼究竟每一條資訊應該怎樣度量呢?

資訊是個很抽象的概念。我們常常說資訊很多,或者資訊較少,但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量。直到 1948 年,夏農

提出了「資訊熵

」(shāng) 的概念,才解決了對資訊的量化度量問題。

一條資訊的資訊量大小和它的不確定性有直接的關係。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的資訊。相反,如果我們對某件事已經有了較多的了解,我們不需要太多的資訊就能把它搞清楚。所以,從這個角度,我們可以認為,資訊量的度量就等於不確定性的多少。

那麼我們如何量化的度量資訊量呢?我們來看乙個例子,馬上要舉行世界盃賽了。大家都很關心誰會是冠軍。假如我錯過了看世界盃,賽後我問乙個知道比賽結果的觀眾「哪支球隊是冠軍」? 他不願意直接告訴我, 而要讓我猜,並且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那麼我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從 1 到 32, 然後提問: 「冠軍的球隊在 1-16 號中嗎?」 假如他告訴我猜對了, 我會接著問: 「冠軍在 1-8 號中嗎?」 假如他告訴我猜錯了, 我自然知道冠軍隊在 9-16 中。 這樣只需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界盃冠軍這條訊息的資訊量只值五塊錢。

當然,夏農不是用錢,而是用 「位元」(bit)這個概念來度量資訊量。 乙個位元是一位二進位制數,計算機中的乙個位元組是八個位元。在上面的例子中,這條訊息的資訊量是五位元。(如果有朝一日有六十四個隊進入決賽階段的比賽,那麼「誰世界盃冠軍」的資訊量就是六位元,因為我們要多猜一次。) 讀者可能已經發現, 資訊量的位元數和所有可能情況的對數函式 log 有關。 (log32=5, log64=6。)

有些讀者此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍,因為象巴西、德國、義大利這樣的球隊得冠軍的可能性比日本、美國、南韓等隊大的多。因此,我們第一次猜測時不需要把 32 個球隊等分成兩個組,而可以把少數幾個最可能的球隊分成一組,把其它隊分成另一組。然後我們猜冠軍球隊是否在那幾隻熱門隊中。我們重複這樣的過程,根據奪冠概率對剩下的候選球隊分組,直到找到冠軍隊。這樣,我們也許三次或四次就猜出結果。因此,當每個球隊奪冠的可能性(概率)不等時,「誰世界盃冠軍」的資訊量的資訊量比五位元少。夏農指出,它的準確資訊量應該是

= -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),

其中,p1,p2 , ...,p32 分別是這 32 個球隊奪冠的概率。夏農把它稱為「資訊熵」 (entropy),一般用符號 h 表示,單位是位元。有興趣的讀者可以推算一下當 32 個球隊奪冠概率相同時,對應的資訊熵等於五位元。有數學基礎的讀者還可以證明上面公式的值不可能大於五。對於任意乙個隨機變數 x(比如得冠軍的球隊),它的熵定義如下:

變數的不確定性越大,熵也就越大,把它搞清楚所需要的資訊量也就越大。

有了「熵」這個概念,我們就可以回答本文開始提出的問題,即一本五十萬字的中文書平均有多少資訊量。我們知道常用的漢字(一級二級國標)大約有 7000 字。假如每個字等概率,那麼我們大約需要 13 個位元(即 13 位二進位制數)表示乙個漢字。但漢字的使用是不平衡的。實際上,前 10% 的漢字佔文字的 95% 以上。因此,即使不考慮上下文的相關性,而只考慮每個漢字的獨立的概率,那麼,每個漢字的資訊熵大約也只有 8-9 個位元。如果我們再考慮上下文相關性,每個漢字的資訊熵只有5位元左右。所以,一本五十萬字的中文書,資訊量大約是 250 萬位元。如果用乙個好的演算法壓縮一下,整本書可以存成乙個 320kb 的檔案。如果我們直接用兩位元組的國標編碼儲存這本書,大約需要 1mb 大小,是壓縮檔案的三倍。這兩個數量的差距,在資訊理論中稱作「冗餘度」(redundancy)。 需要指出的是我們這裡講的 250 萬位元是個平均數,同樣長度的書,所含的資訊量可以差很多。如果一本書重複的內容很多,它的資訊量就小,冗餘度就大。

不同語言的冗餘度差別很大,而漢語在所有語言中冗餘度是相對小的。這和人們普遍的認識「漢語是最簡潔的語言」是一致的。

在下一集中, 我們將介紹資訊熵在資訊處理中的應用以及兩個相關的概念互資訊和相對熵。

對中文資訊熵有興趣的讀者可以讀我和王作英教授在電子學報上合寫的一篇文章

《語資訊熵和語言模型的複雜度》

數學之美 資訊的度量

資訊有大小嗎,如何度量資訊的大小?如何度量資訊之間的關係?其實每門學科都有它的神奇之處 在日常生活中,我們應該遇到過這樣類似的情況 有的人簡單說了一句話,我們感覺這句話資訊量好大,一時緩不過神來。有的人說了一堆話,感覺和沒說一樣,半天提取不出來重點資訊。如果遇到過這種情況,我們應該有所感覺 資訊應該...

數學之美 系列

數學之美 系列一 統計語言模型 數學之美 系列二 談談中文分詞 數學之美 系列三 隱含馬爾可夫模型在語言處理中的應用 數學之美系列 4 怎樣度量資訊?數學之美系列五 簡單之美 布林代數和搜尋引擎的索引 數學之美系列六 圖論和網路爬蟲 web crawlers 數學之美 系列七 資訊理論在資訊處理中的...

數學之美4

第7章 賈里尼克和現代語言處理 第8章 簡單之美 布林代數和搜尋引擎 道與術 事情的原理是道,具體的做事方法叫術。追求的術的人,一生工作辛苦,只有掌握道,才能游刃有餘。追求術的人,往往是希望走捷徑,希望有乙個模型能把事情畢其功於一役,但這是不現實的。1.布林代數 就是真 假的組合四則運算 與 或 非...