結巴分詞 詞性標註

2021-08-02 19:30:00 字數 1060 閱讀 6135

1、簡介

詞性(part-of-speech)是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述乙個詞在上下文的作用。例如,描述乙個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做封閉式詞性。因為存在乙個詞對應多個詞性的現象,所以給詞準確地標註詞性並不是很容易。例如,「改革」在「中國開始對計畫經濟體制進行改革」這句話中是乙個動詞,但是在「醫藥衛生改革中的經濟問題」這個句子中是乙個名詞。把這個問題抽象出來,就是已知單詞序列,給每個單詞標註詞性。詞性標註是自然語言處理中一項非常重要的基礎性工作。

目前採用的詞性標註方法主要有基於統計模型的標註方法基於規則的標註方法統計方法與規則方法相結合的方法基於有限狀態轉換機的標註方法基於神經網路的詞性標註方法

jieba分詞中提供了詞性標註功能,可以標註標註句子分詞後每個詞的詞性,詞性標註集採用北大計算所詞性標註集,屬於採用基於統計模型的標註方法

2、python實踐

由於我要去除人名、地名、專有名詞。這些名詞在jieba分詞裡詞性編碼如下:

#nr 人名

#ns 地名

#nt 機構團體

#nz 其他專名

import jieba.posseg as psg

text = u"我和王非去北京大學玩"

seg = psg.cut(text)

print type(seg)

for ele in seg:

if ele.flag == 'nr' or ele.flag == 'ns' or ele.flag == 'nt' or ele.flag == 'nz':

print ele.word, ele.flag

python jieba分詞 詞性標註

進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

jieba(結巴)分詞種詞性簡介

jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標註的功能,詞性類別如下 ag 形語素形容詞性語素。形容詞 為 a,語素 前面置以a。a 形容詞取英語形容詞 adjective的第1個字母。ad 副形詞直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an 名形詞具有名詞功能的形...

Jieba分詞詞性標註以及詞性說明

import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....