NLP 揭秘馬爾可夫模型神秘面紗系列文章（二）

安德烈·馬爾可夫，俄羅斯人，物理-數學博士，聖彼得堡科學院院士，彼得堡數學學派的代表人物，以數論和概率論方面的工作著稱，他的主要著作有《概率演算》等。2023年，榮獲金質獎章，2023年被授予功勳教授稱號。馬爾可夫是彼得堡數學學派的代表人物。以數論和概率論方面的工作著稱。他的主要著作有《概率演算》等。在數論方面，他研究了連分數和二次不定式理論，解決了許多難題。在概率論中，他發展了矩陣法，擴大了大數律和中心極限定理的應用範圍。馬爾可夫最重要的工作是在1906～2023年間，提出並研究了一種能用數學分析方法研究自然過程的一般圖式——馬爾可夫鏈。同時開創了對一種無後效性的隨機過程——馬爾可夫過程的研究。馬爾可夫經多次觀察試驗發現，乙個系統的狀態轉換過程中第n次轉換獲得的狀態常取決於前一次（第（n-1）次）試驗的結果。馬爾可夫進行深入研究後指出：對於乙個系統，由乙個狀態轉至另乙個狀態的轉換過程中，存在著轉移概率，並且這種轉移概率可以依據其緊接的前一種狀態推算出來，與該系統的原始狀態和此次轉移前的馬爾可夫過程無關。馬爾可夫鏈理論與方法在現代已經被廣泛應用於自然科學、工程技術和公用事業中。

當需要計算現實世界上可以直接觀察到的時間序列的概率時，（如上面天氣事件），馬爾可夫鏈很有用。但是，當我們處理的事件是現實世界不能觀察到的，而是隱含在觀察背後，諸如詞類標註（根據具體的乙個個的詞，我們實現看到的詞的序列去標註出正確的詞類，此事詞類的標註是隱藏的）、語音識別（聲學事件下，推斷出隱藏在其背後的單詞）等。類似這樣的事件馬爾可夫鏈是不能直接解決的，此處隱馬爾可夫模型便派到用場。

隱馬爾科夫模型：由被觀察到的事件（如：此類標記時我們輸入中看到的詞序列），又涉及到隱藏事件（對詞的標註），這些隱藏事件在概率模型中被我們認為是引導因素。

隱馬爾可夫模型在現實問題中應用：

（1）具有初始狀態和終結狀態的隱馬爾科夫鏈描述如下：

（2）沒有初始狀態和終結狀態的隱馬爾科夫鏈描述如下：

（3）一階隱馬爾可夫的兩個假設

問題1（似然度問題

）：給乙個hmm λ=（a,b）和乙個觀察序列o，確定觀察序列的似然度問題 p(o|λ) 。

問題2（解碼問題

）：給定乙個觀察序列o和乙個hmm λ=（a,b），找出最好的隱藏狀態序列q。

問題3（學習問題

）：給定乙個觀察序列o和乙個hmm中的狀態集合，自動學習hmm的引數a和b。

如上的冰淇淋事件是典型的問題1，似然度問題，對應向前演算法解決。詞類標註是典型問題2解碼問題，對應維特比演算法解決。問題3是機器學習問題，對應向前向後演算法解決。此三個問題稍後篇章會一一介紹。

下圖描述小明吃冰淇淋的數量（觀察值）與天氣熱冷情況（隱藏值h或c）之間的隱馬爾可夫模型

其中hot1的轉移概率是：

p（1|hot）=0.2 夏天某天天氣熱吃1根冰淇淋的概率

p（2|hot）=0.4 夏天某天天氣熱吃2根冰淇淋的概率

p（3|hot）=0.4 夏天某天天氣熱吃3根冰淇淋的概率

其中cold2的轉移概率是：

p（1|hot）=0.5 夏天某天天氣冷吃1根冰淇淋的概率

p（1|hot）=0.4 夏天某天天氣冷吃2根冰淇淋的概率

p（1|hot）=0.1 夏天某天天氣冷吃3根冰淇淋的概率

其中觀察值（吃的數量）：

o=隱藏值（天氣的狀態）：

s=全連通hmm：任何兩個狀態之間的轉移乙個非零概率。

非全連通hmm：從左到右的單向序列，如對語音程序建模。

通過小明吃冰淇淋的觀察值推斷天氣狀態的問題，留著下節採用隱含馬爾可夫模型解決。此處採用乙個短小簡明的例子，旨在讓讀者明白原理，後續會拿到現實應用中深入講解。

統計自然語言處理基礎 christopher.manning等著宛春法等譯

自然語言處理簡明教程馮志偉著

數學之美吳軍著

viterbi演算法分析文章王亞強

NLP 揭秘馬爾可夫模型神秘面紗系列文章（二）

NLP 揭秘馬爾可夫模型神秘面紗系列文章（二）

NLP 揭秘馬爾可夫模型神秘面紗系列文章（二）

NLP 揭秘馬爾可夫模型神秘面紗系列文章（五）

相關推薦