結巴分詞詞性標註

1、簡介

詞性（part-of-speech）是詞彙基本的語法範疇，通常也稱為詞類，主要用來描述乙個詞在上下文的作用。例如，描述乙個概念的詞就是名詞，在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞，例如名詞，這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定，例如代詞，這樣的詞性叫做封閉式詞性。因為存在乙個詞對應多個詞性的現象，所以給詞準確地標註詞性並不是很容易。例如，「改革」在「中國開始對計畫經濟體制進行改革」這句話中是乙個動詞，但是在「醫藥衛生改革中的經濟問題」這個句子中是乙個名詞。把這個問題抽象出來，就是已知單詞序列，給每個單詞標註詞性。詞性標註是自然語言處理中一項非常重要的基礎性工作。

目前採用的詞性標註方法主要有基於統計模型的標註方法、基於規則的標註方法、統計方法與規則方法相結合的方法、基於有限狀態轉換機的標註方法和基於神經網路的詞性標註方法。

jieba分詞中提供了詞性標註功能，可以標註標註句子分詞後每個詞的詞性，詞性標註集採用北大計算所詞性標註集，屬於採用基於統計模型的標註方法。

2、python實踐

由於我要去除人名、地名、專有名詞。這些名詞在jieba分詞裡詞性編碼如下：

#nr 人名

#ns 地名

#nt 機構團體

#nz 其他專名

import jieba.posseg as psg
text = u"我和王非去北京大學玩"
seg = psg.cut(text)
print type(seg)
for ele in seg:
if ele.flag == 'nr' or ele.flag == 'ns' or ele.flag == 'nt' or ele.flag == 'nz':
print ele.word, ele.flag

結巴分詞詞性標註

python jieba分詞詞性標註

jieba（結巴）分詞種詞性簡介

Jieba分詞詞性標註以及詞性說明

結巴分詞 詞性標註

python jieba分詞 詞性標註

jieba（結巴）分詞種詞性簡介

Jieba分詞詞性標註以及詞性說明

相關推薦

結巴分詞詞性標註

python jieba分詞詞性標註