評論《怎樣度量資訊》

google

黑板報上有乙個系列《數學之美》非常的不錯，到目前為止共有四期，鏈結分別如下：

其第一期和第三期都是統計語言模型的話題，一是概述，三介紹了

hmm，統計語言模型在

nlu/nlp

中的應用方興未艾，不再贅述。而二談到了中文分詞，因為有做

segword

的計畫，所以也曾經粗略的分析過中文分詞的問題，可見於：

倒是第四期，題目為「怎樣度量資訊？」，並有一段舉例：

那麼我們如何量化的度量資訊量呢？我們來看乙個例子，馬上要舉行世界盃賽了。大家都很關心誰會是冠軍。假如我錯過了看世界盃，賽後我問乙個知道比賽結果的觀眾「哪支球隊是冠軍」？他不願意直接告訴我，而要讓我猜，並且我每猜一次，他要收一元錢才肯告訴我是否猜對了，那麼我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號，從1 到32，然後提問：「冠軍的球隊在1-16 號中嗎?」假如他告訴我猜對了，我會接著問：「冠軍在1-8 號中嗎?」假如他告訴我猜錯了，我自然知道冠軍隊在9-16 中。這樣只需要五次，我就能知道哪支球隊是冠軍。所以，誰是世界盃冠軍這條訊息的資訊量只值五塊錢。

當然，夏農不是用錢，而是用「位元」（bit）這個概念來度量資訊量。乙個位元是一位二進位制數，計算機中的乙個位元組是八個位元。在上面的例子中，這條訊息的資訊量是五位元。（如果有朝一日有六十四個隊進入決賽階段的比賽，那麼「誰世界盃冠軍」的資訊量就是六位元，因為我們要多猜一次。）

由這個例子引出夏農資訊倫的確是非常精彩的。但若以此來度量資訊（這個世界中的所有資訊）、處理自然語言，卻是值得商榷的，或者說，不應忘了給予反思。

我們仍從這個例子開始，

32個球隊，如巴西隊、義大利隊、德國隊等，若想知道誰是冠軍，對球隊進行編號然後用二分法查詢，也就是在這種模型下對檢索過程進行編碼，碼長便可以衡量這個結果的「資訊量」。但這是有前提的，也就是說，我們在追問「冠軍是誰」的資訊量時，我們對這個「資訊」已經進行了加工，也就是把球隊集合與自然數集進行了對映（作標號），換句話說，這是一種結構化的資訊。作為資訊檢索方向的研究與應用，我們當然更希望深入了解非結構化資訊的資訊量計算。

回過頭來看什麼是資訊，夏農資訊理論的確第一次給出了形式化的定義，也就是《怎樣度量資訊》中提到的資訊熵計算公式。這個定義的哲學就是，資訊量是對不確定性的衡量。乙個事件越是確定的，對你而言資訊量也就越小，如人總是會死的，明天太陽將從東方公升起，這些對人而言，資訊熵幾乎都是為

0的。（因為人對這些資訊熵的計算是在一定的模型之上）。

但對於機器而言，乙個請求「

哪支球隊是冠軍？

」意味著什麼？如果它的內部已經有了球隊集合的對映，並精確「知道」這個輸入的意義是什麼，自然其資訊量也就是

5bit

。但若在乙個非結構化的資訊環境中，比如新聞報道的大規模文件集合中，這個請求的資訊量是多少？它意味著什麼呢？

首先，對於請求，這個結構表達的是一種疑問資訊，需要匹配是冠軍的球隊，資訊的主體是：

球隊是冠軍 -

〉球隊獲得了冠軍稱號（冠軍盃）

這是一種邏輯結構，

「是」結構

和「獲得了」結構

在這種自然語言邏輯的環境中資訊量是等價的（等同的），當然還有眾多的變體。在這種邏輯結構中，除了謂詞，還有一些關鍵的實體單元，如

球隊、冠軍（稱號、杯）

等，都是具有

意義的。

在大規模的新聞文件中回答這個請求，除了理解其資訊結構和意義之外，自然是理解資訊源的結構和意義。

這樣，我們才能在報道繁雜的文件中，計算出我們所需要的答案。那麼，這個過程的資訊量是多少？刨除「邏輯結構」這樣的模型化名詞，我們用乙個串去到另乙個串中去匹配我們所需要的串，這個過程中資訊量應該如何度量？什麼又是資訊呢？

國內現在對夏農資訊理論有一種批評的聲音（可檢

索鍾義信

教授的全息自然語言理解方向的探索材料），認為它

只研究資訊傳輸過程中雜訊環境下的處理，並不涉及資訊的理解，我覺得乙個不容迴避的問題是，既然談到資訊，就不能僅僅關注到不確定性的度量，還要關注到意義的度量（這裡用了語言哲學方面的提法，而不是語言學的提法：語義，為的是促進反思）。所以《怎樣度量資訊》中提到

「有了「熵」這個概念，我們就可以回答本文開始提出的問題，即一本五十萬字的中文書平均有多少資訊量。

」這個說法及其後文的計算方法，我覺得對於這篇blog所提到的主題和google的使命來講是值得再思考的。因為資訊和資訊量的度量，對我們來講是意義重大的，或許，這遠非資訊熵所能表達。

僅作繼續思考的材料。

評論《怎樣度量資訊》

數學之美系列 4 怎樣度量資訊

資訊的度量

資訊的度量（資訊熵）

評論《怎樣度量資訊》

數學之美系列 4 怎樣度量資訊

資訊的度量

資訊的度量（資訊熵）

相關推薦