自然語言處理學習筆記 006

常用的分詞方法

自然語言處理常用的分詞方法有正向和逆向最大匹配、最短路徑、全切分、最大概率、n-最短路徑等方法。現在流行起來的還有最大熵模型、hmm模型、決策樹、bp神經網路、n-gram等方法。

現在我很想把它們在分詞中的聯絡和區別都一一搞清楚。

最大匹配分詞方法簡單、容易實現, 但是無法解決上面提到的歧義問題。因此分詞結果的正確率不是很高, 導致最終的標註結果的準確率較低。

比如對於以下兩個句子進行切分：

（1）「這件事未終了」進行正向和逆向最大匹配演算法：

正向最大匹配演算法：這件|事|未終|了

逆向最大匹配演算法：這件|事|未|終了

（2）「我有意見分歧」進行正向和逆向最大匹配演算法：正向最大匹配演算法：我|有意|見|分歧

逆向最大匹配演算法：我|有|意見|分歧

到底是」終了「還是」未終「，」有意「還是」意見「，不同的分詞演算法就會產生不同的歧義。

最短路徑方法是使切分出來的詞數最少, 但是最短路徑經常不只一條, 不科學的捨棄原則也影響了分詞結果。前人在此基礎上引入n-最短路徑方法, 該方法保留了條較短路徑, 即分詞結果有多條, 體現了很好的包容性, 可以最大限度的包容正確結果。此外最大概率分詞方法也是乙個較好的分詞方法, 它的理論依據是聯合概率最大的詞串就是最終的切分結果。而而全切分方法與以上方法的不同之處在於它切分出了所有可能的切分結果, 不在分詞階段做排除工作。

自然語言處理學習筆記 006

自然語言處理學習筆記 007

自然語言處理學習記錄

《Python自然語言處理》學習筆記（二）

自然語言處理學習筆記 006

自然語言處理學習筆記 007

自然語言處理學習記錄

《Python自然語言處理》學習筆記（二）

相關推薦