輸入法之模型訓練

輸入法，尤其是拼音輸入法，解決的就是一些序列標註的問題，針對給定的狀態(拼音)，獲取其概率最高的隱狀態(中文)。

這個是乙個標準的hmm，針對hmm的解碼過程，是乙個很成熟也很完備的東西。

local的計算和儲存能力都有限，我們選擇一般是二階馬爾科夫，也就是所謂的bigram model。高階對質量會有幫助，但是涉及到儲存和計算，工程上不可行。

同理，利用me 以及crfmodel都可以解決這一類的標註問題，同樣是工程上的問題，不太可行。

確定了採用bigram model，那麼訓練過程也就很確定：

1.segment and count bigram&unigram

2.smoothing

3.prunning

在seg之前，需要對我們的訓練語料做一下預處理，輸入法重點關注的是中文以及中文的關係，所以需要對其中的英文以及符號等分割做乙個預處理，不然會增加後期剪枝的複雜度。

一版的做法是，針對裡面的英文，可以用乙個統一的english的標記代替，盡量不要去掉，而對於符號，作為句子的分隔符號，將整個句子折斷成乙個乙個純中文的短句，作為訓練語料。

作為完備的model，會包括開始符號bos 以及結束符eos，則可以保證整個model是封閉的。不過針對輸入法，這個不是必須的，對於輸入過程，使用者的每一次開始輸入，都不一定是句子的開始，強行加上去，不一定有好的效果。

作為訓練過程#1 沒有什麼好說的，直接處理就行。

#2是很關鍵的乙個，hmm的解碼，涉及到大量的轉義概率乘，如果兩個狀態的概率沒看到，那麼轉義概率為0，整個相乘鏈就為0，顯然不合理。所以需要平滑，其實就是通過策略為沒有看到的二元對提供乙個預設的計算方式。

#3 二元對之間的關係很多，一版在1b規模以上，而輸入法智慧型很用很小規模(1kw)，那麼就需要對這個進行剪枝，剪枝非常重要，最大限度的保證剪枝後模型的準確率和剪枝前相近,後面詳細介紹。