詞性標註筆記

詞性作為詞語基本的語法屬性，是詞語和語句的關鍵性特徵。詞性種類也很多，ictclas 漢語詞性標註集歸納的詞性種類及其表示見

詞性標註中的難點主要有

相對於英文，中文缺少詞形態變化，不能從詞的形態來識別詞性

一詞多詞性很常見。統計發現，一詞多詞性的概率高達22.5%。而且越常用的詞，多詞性現象越嚴重。比如「研究」既可以是名詞（「基礎性研究」），也可以是動詞（「研究電腦科學」）。

詞性劃分標準不統一。詞類劃分粒度和標記符號等，目前還沒有乙個廣泛認可的統一的標準。比如ldc標註語料中，將漢語一級詞性劃分為33類，而北京大學語料庫則將其劃分為26類。詞類劃分標準和標記符號的不統一，以及分詞規範的含糊，都給詞性標註帶來了很大的困難。jieba分詞採用了使用較為廣泛的ictclas 漢語詞性標註集規範。

未登入詞問題。和分詞一樣，未登入詞的詞性也是乙個比較大的課題。未登入詞不能通過查詢字典的方式獲取詞性，可以採用hmm隱馬爾科夫模型等基於統計的演算法。

先對語句進行分詞，然後從字典中查詢每個詞語的詞性，對其進行標註即可。jieba詞性標註中，對於識別出來的詞語，就是採用了這種方法。這種方法比較簡單，通俗易懂，但是不能解決一詞多詞性的問題，因此存在一定的誤差。

和分詞一樣，我們也可以通過hmm隱馬爾科夫模型來進行詞性標註。觀測序列即為分詞後的語句，隱藏序列即為經過標註後的詞性標註序列。起始概率發射概率和轉移概率和分詞中的含義大同小異，可以通過大規模語料統計得到。觀測序列到隱藏序列的計算可以通過viterbi演算法，利用統計得到的起始概率發射概率和轉移概率來得到。得到隱藏序列後，就完成了詞性標註過程。

這類方法的主要特點在於對統計標註結果的篩選，只對那些被認為可疑的標註結果，才採用規則方法進行歧義消解，而不是對所有情況都既使用統計方法又使用規則方法。

可以當作序列標註的任務來做，目前深度學習解決序列標註任務常用方法包括lstm+crf、bilstm+crf 等。

詞性標註筆記

詞法分析與詞性標註學習之筆記（二）詞性標註

詞性標註的詞性說明

LTP詞性標註

詞性標註筆記

詞法分析與詞性標註學習之筆記（二） 詞性標註

詞性標註的詞性說明

LTP詞性標註

相關推薦

詞法分析與詞性標註學習之筆記（二）詞性標註