《數學之美》讀書筆記

2022-06-15 08:24:14 字數 1955 閱讀 2966

通訊六要素

s是可見的 - 信源

o是不可見的(輸出) - 信宿

通訊就是要根據觀測到的o恢復出s

對於翻譯問題,漢譯英:英語是s,漢語是o,根據s推斷o

tf:詞頻

idf:逆文字頻率指數

以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。

根據最大熵原則:希望找到乙個符合所有邊緣分布並使熵達到最大的模型,數學上可以證明,這個模型就是指數函式。

詳見:最大熵模型、邏輯回歸模型都是指數模型,訓練方法類似:em演算法(通用迭代演算法gis、改進的迭代演算法iis)

最大熵模型的數學推導(參考[2])

對於給定的訓練資料集t=以及特徵函式fi(x,y),i=1,2,3...n,最大熵模型的學習等價於約束的最優化問題:

引入朗格朗日運算元w,定義拉格朗日函式l(p,w)

最優化的原始問題:

對偶問題是:

由於l(p,w)是p的凸函式,原始問題的解與對偶問題的解是等價的。這裡通過求對偶問題的解來求原始問題的解。

第一步求解內部極小化問題,記為:

通過微分求導,得出p的解是:

第二步求外部的極大化問題:

最後的解記為:

第三步可以證明對偶函式的極大化等價於第一步求解出的p的極大似然估計,所以將最大熵模型寫成更一般的形式.

模擬k-means演算法:

hmm和crf的區別

上述模型引數眾多,因此只能找出其中一些邊緣分布,例如p(x_1), p(x_2, y_3)等,再根據最大熵原則找到乙個滿足所有邊緣分布並且使熵最大的模型。

這個模型就是指數函式

p問題:

非多項式問題:

在非多項式問題中,有一類稱之為非確定的多項式問題(np問題)

p不等於np

如果乙個問題,能在多項式複雜度的時間內證實乙個答案正確與否,則稱為np問題(無論當前是否有多項式複雜度演算法)

npc:np-complete問題,所有np問題都可以在多項式時間內規約到npc問題,如果npc問題找到了多項式演算法,則np=p

計算複雜度至少是npc甚至是更大的問題,稱之為np-hard問題

a中元素為去加權詞頻(例如tf-idf)

2023年8月15日 夜

於南湖畔

《數學之美》讀書筆記

之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...

數學之美讀書筆記(一)

chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...

數學之美讀書筆記(二)

chapter.6資訊的度量和作用 1.一條資訊的資訊量就等於其不確定性 熵 越是不確定的事物越是要大量資訊去說明 以位元為衡量單位 資訊是消除不確定性的唯一方法 2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程 3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜...