讀書筆記數學之美

1.通訊模型

2.翻譯可行的條件：不同文字在記錄資訊的能力上是等價的，文字只是資訊載體，而非資訊本身。

3.資訊的冗餘：是資訊保安的保障。語言的材料（語料）尤其是多語言的對照語料是機器翻譯的基礎。

4.資訊的編碼，信源編碼：為了減少信源輸出符號串行中的剩餘度、提高符號的平均資訊量，對信源輸出的符號串行所施行的變換。具體說，就是針對信源輸出符號串行的統計特性來尋找某種方法，把信源輸出符號串行變換為最短的碼字序列，使後者的各碼元所載荷的平均資訊量最大，同時又能保證無失真地恢復原來的符號串行。信源編碼

5.通訊過程中，若通道寬，則資訊不需要壓縮便可直接傳輸，若通道窄，則資訊需要在傳送方盡可能的壓縮，到接收方再解壓縮。

6.語言實質是一種編碼方式，交流即編碼和解碼。

7.通訊系統+隱含的馬爾可夫模型，輸入和輸出都是一維的符號串行，並且保持原有的次數。

8.圖靈測試：讓人和機器進行交流，如果人沒法區分與之交流的是人還是機器，則說這個機器擁有智慧型。

9.馬爾可夫假設：任意乙個詞wi 出現的頻率只與它前面的詞wi-1有關。p(s)=p(w1)*p(w2|w1)……p(wn|wn-1).

10.大數定理需要有足夠的觀測值：在隨機事件的大量重複出現中，往往呈現幾乎必然的規律，這個規律就是大數定律。通俗地說，這個定理就是，在試驗不變的條件下，重複試驗多次，隨機事件的頻率近似於它的概率。大數定律

11.語料選取：訓練資料通常越多越好，噪音高低會對模型效果產生影響，有時需要進行預處理。

12.中文分詞：

①查字典：查到該詞就標出，複合詞找最長匹配，查不到就單字標出，一句話應分成數量最少的詞串。

②分詞器：

③分詞的同時，找到複合詞的巢狀結構，根據不同應用，漢語分詞的顆粒度應該不同。

④乙個分詞器同時支援不同層次的詞的劃分。

⑤分詞的不一致性可分為錯誤和顆粒度兩種，錯誤包括：越界、覆蓋，顆粒度即顆粒度不一致。

13.雅各布森通訊六要素：傳送者（資訊源）、通道、接收方、資訊、上下文、編碼。

14.自然語言處理等價於通訊的解碼。

15.隱含馬爾可夫模型：隨機過程中的各個狀態st的概率分布，只與它前乙個狀態st-1有關。

16.資訊的資訊量與不確定性有直接關係。資訊熵：h(x)=-∑p(x)logp(x)。不確定性越大，熵越大。

17.冗餘度：直接儲存的資訊量與壓縮儲存的資訊量的差距。如果一本書的重複內容多，資訊量就小，冗餘度就大。

18.資訊是消除系統不確定性的唯一辦法，知道的資訊越多，隨機事件的不確定性越低。

19.互資訊：i(x;y)=h(x)-h(y)，x、y完全相關時i=1，x、y完全無關時i=0。

20.語言模型複雜度：給定上下文的條件下，句子中每個位置平均可以選擇的單詞數量。複雜度越小，每個位置的單詞越確定，模型越好。

讀書筆記數學之美

讀書筆記數學之美筆記

《數學之美》讀書筆記

《數學之美》讀書筆記

讀書筆記 數學之美

讀書筆記 數學之美 筆記

《數學之美》讀書筆記

《數學之美》讀書筆記

相關推薦

讀書筆記數學之美

讀書筆記數學之美筆記