讀書筆記 數學之美

2022-07-16 18:00:15 字數 1551 閱讀 5725

1.通訊模型

2.翻譯可行的條件:不同文字在記錄資訊的能力上是等價的,文字只是資訊載體,而非資訊本身。

3.資訊的冗餘:是資訊保安的保障。語言的材料(語料)尤其是多語言的對照語料是機器翻譯的基礎。

4.資訊的編碼,信源編碼:為了減少信源輸出符號串行中的剩餘度、提高符號的平均資訊量,對信源輸出的符號串行所施行的變換。具體說,就是針對信源輸出符號串行的統計特性來尋找某種方法,把信源輸出符號串行變換為最短的碼字序列,使後者的各碼元所載荷的平均資訊量最大,同時又能保證無失真地恢復原來的符號串行。信源編碼

5.通訊過程中,若通道寬,則資訊不需要壓縮便可直接傳輸,若通道窄,則資訊需要在傳送方盡可能的壓縮,到接收方再解壓縮。

6.語言實質是一種編碼方式,交流即編碼和解碼。

7.通訊系統+隱含的馬爾可夫模型,輸入和輸出都是一維的符號串行,並且保持原有的次數。

8.圖靈測試:讓人和機器進行交流,如果人沒法區分與之交流的是人還是機器,則說這個機器擁有智慧型。

9.馬爾可夫假設:任意乙個詞wi 出現的頻率只與它前面的詞wi-1有關。p(s)=p(w1)*p(w2|w1)……p(wn|wn-1).

10.大數定理需要有足夠的觀測值:在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。通俗地說,這個定理就是,在試驗不變的條件下,重複試驗多次,隨機事件的頻率近似於它的概率。大數定律

11.語料選取:訓練資料通常越多越好,噪音高低會對模型效果產生影響,有時需要進行預處理。

12.中文分詞:

①查字典:查到該詞就標出,複合詞找最長匹配,查不到就單字標出,一句話應分成數量最少的詞串。

②分詞器:

③分詞的同時,找到複合詞的巢狀結構,根據不同應用,漢語分詞的顆粒度應該不同。

④乙個分詞器同時支援不同層次的詞的劃分。

⑤分詞的不一致性可分為錯誤和顆粒度兩種,錯誤包括:越界、覆蓋,顆粒度即顆粒度不一致。

13.雅各布森通訊六要素:傳送者(資訊源)、通道、接收方、資訊、上下文、編碼。

14.自然語言處理等價於通訊的解碼。

15.隱含馬爾可夫模型:隨機過程中的各個狀態st的概率分布,只與它前乙個狀態st-1有關。

16.資訊的資訊量與不確定性有直接關係。資訊熵:h(x)=-∑p(x)logp(x)。不確定性越大,熵越大。

17.冗餘度:直接儲存的資訊量與壓縮儲存的資訊量的差距。如果一本書的重複內容多,資訊量就小,冗餘度就大。

18.資訊是消除系統不確定性的唯一辦法,知道的資訊越多,隨機事件的不確定性越低。

19.互資訊:i(x;y)=h(x)-h(y),x、y完全相關時i=1,x、y完全無關時i=0。

20.語言模型複雜度:給定上下文的條件下,句子中每個位置平均可以選擇的單詞數量。複雜度越小,每個位置的單詞越確定,模型越好。

讀書筆記 數學之美 筆記

隨便總結的,書都看了,總要留下點印記不是本質就是乙個編譯碼和傳輸的過程 自然語言處理在過去的30年發生了巨大的變化 構建兩個詞表,乙個是基本詞表,乙個是複合詞表,再根據兩個詞表分表建立兩個語言模型 模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進...

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...

《數學之美》讀書筆記

之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...