評論《怎樣度量資訊》

2021-04-06 22:07:41 字數 2513 閱讀 3004

google

黑板報上有乙個系列《數學之美》非常的不錯,到目前為止共有四期,鏈結分別如下:

其第一期和第三期都是統計語言模型的話題,一是概述,三介紹了

hmm,統計語言模型在

nlu/nlp

中的應用方興未艾,不再贅述。而二談到了中文分詞,因為有做

segword

的計畫,所以也曾經粗略的分析過中文分詞的問題,可見於:

倒是第四期,題目為「怎樣度量資訊?」,並有一段舉例:

那麼我們如何量化的度量資訊量呢?我們來看乙個例子,馬上要舉行世界盃賽了。大家都很關心誰會是冠軍。假如我錯過了看世界盃,賽後我問乙個知道比賽結果的觀眾「哪支球隊是冠軍」?他不願意直接告訴我, 而要讓我猜,並且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那麼我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從1 到32, 然後提問: 「冠軍的球隊在1-16 號中嗎?」 假如他告訴我猜對了, 我會接著問: 「冠軍在1-8 號中嗎?」 假如他告訴我猜錯了, 我自然知道冠軍隊在9-16 中。 這樣只需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界盃冠軍這條訊息的資訊量只值五塊錢。

當然,夏農不是用錢,而是用 「位元」(bit)這個概念來度量資訊量。 乙個位元是一位二進位制數,計算機中的乙個位元組是八個位元。在上面的例子中,這條訊息的資訊量是五位元。(如果有朝一日有六十四個隊進入決賽階段的比賽,那麼「誰世界盃冠軍」的資訊量就是六位元,因為我們要多猜一次。)

由這個例子引出夏農資訊倫的確是非常精彩的。但若以此來度量資訊(這個世界中的所有資訊)、處理自然語言,卻是值得商榷的,或者說,不應忘了給予反思。

我們仍從這個例子開始,

32個球隊,如巴西隊、義大利隊、德國隊等,若想知道誰是冠軍,對球隊進行編號然後用二分法查詢,也就是在這種模型下對檢索過程進行編碼,碼長便可以衡量這個結果的「資訊量」。但這是有前提的,也就是說,我們在追問「冠軍是誰」的資訊量時,我們對這個「資訊」已經進行了加工,也就是把球隊集合與自然數集進行了對映(作標號),換句話說,這是一種結構化的資訊。作為資訊檢索方向的研究與應用,我們當然更希望深入了解非結構化資訊的資訊量計算。

回過頭來看什麼是資訊,夏農資訊理論的確第一次給出了形式化的定義,也就是《怎樣度量資訊》中提到的資訊熵計算公式。這個定義的哲學就是,資訊量是對不確定性的衡量。乙個事件越是確定的,對你而言資訊量也就越小,如人總是會死的,明天太陽將從東方公升起,這些對人而言,資訊熵幾乎都是為

0的。(因為人對這些資訊熵的計算是在一定的模型之上)。

但對於機器而言,乙個請求「

哪支球隊是冠軍?

」意味著什麼?如果它的內部已經有了球隊集合的對映,並精確「知道」這個輸入的意義是什麼,自然其資訊量也就是

5bit

。但若在乙個非結構化的資訊環境中,比如新聞報道的大規模文件集合中,這個請求的資訊量是多少?它意味著什麼呢?

首先,對於請求,這個結構表達的是一種疑問資訊,需要匹配是冠軍的球隊,資訊的主體是:

球隊 是 冠軍 -

〉球隊獲得了 冠軍稱號(冠軍盃)

這是一種邏輯結構,

「是」結構

和「獲得了」結構

在這種自然語言邏輯的環境中資訊量是等價的(等同的),當然還有眾多的變體。在這種邏輯結構中,除了謂詞,還有一些關鍵的實體單元,如

球隊、冠軍(稱號、杯)

等,都是具有

意義的。

在大規模的新聞文件中回答這個請求,除了理解其資訊結構和意義之外,自然是理解資訊源的結構和意義。

這樣,我們才能在報道繁雜的文件中,計算出我們所需要的答案。那麼,這個過程的資訊量是多少?刨除「邏輯結構」這樣的模型化名詞,我們用乙個串去到另乙個串中去匹配我們所需要的串,這個過程中資訊量應該如何度量?什麼又是資訊呢?

國內現在對夏農資訊理論有一種批評的聲音(可檢

索鍾義信

教授的全息自然語言理解方向的探索材料),認為它

只研究資訊傳輸過程中雜訊環境下的處理,並不涉及資訊的理解,我覺得乙個不容迴避的問題是,既然談到資訊,就不能僅僅關注到不確定性的度量,還要關注到意義的度量(這裡用了語言哲學方面的提法,而不是語言學的提法:語義,為的是促進反思)。所以《怎樣度量資訊》中提到

「有了「熵」這個概念,我們就可以回答本文開始提出的問題,即一本五十萬字的中文書平均有多少資訊量。

」這個說法及其後文的計算方法,我覺得對於這篇blog所提到的主題和google的使命來講是值得再思考的。因為資訊和資訊量的度量,對我們來講是意義重大的,或許,這遠非資訊熵所能表達。

僅作繼續思考的材料。

數學之美系列 4 怎樣度量資訊

發表者 吳軍,google 研究員 前言 google 一直以 整合全球資訊,讓人人能獲取,使人人能受益 為使命。那麼究竟每一條資訊應該怎樣度量呢?資訊是個很抽象的概念。我們常常說資訊很多,或者資訊較少,但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量。直到 1948 年,夏農...

資訊的度量

比如寫 時搜尋資料,從乙個大方向逐步細化為明確的研究再到具體的原理 數學公式等,這個過程就是不確定性的降低。一開始需要閱覽大量相關 明確後就變成了對某個具體的知識內容的精確搜尋,資訊量也在降低。因此 資訊量就等於不確定性的多少。對已知的的資訊進行排序分組能有效降低不確定性,即資訊量。用h表示資訊熵,...

資訊的度量(資訊熵)

資訊熵 一條資訊的資訊量和其不確定性有著直接的關係,比如我們想弄清楚乙個非常不確定的事需要大量的資訊,可以認為資訊量就是不確定性的多少。比如錯過了世界盃,想要猜32個球隊哪只是冠軍,可以先問是1 16嗎,假如猜對了,可以繼續問1 8嗎,這樣就需要五次就可以知道哪個球隊是冠軍,所以誰是冠軍這個資訊就是...