jieba中文分詞元件的詞性型別

2021-09-22 18:30:53 字數 1583 閱讀 7052

jieba 中文分詞元件具有對分詞的詞性進行標註的功能,詞性類別如下:

ag形語素

形容詞性語素。形容詞**為 a,語素**g前面置以a。

a形容詞

取英語形容詞 adjective的第1個字母。

ad副形詞

直接作狀語的形容詞。形容詞** a和副詞**d並在一起。

an名形詞

具有名詞功能的形容詞。形容詞** a和名詞**n並在一起。

b區別詞

取漢字「別」的聲母。c連詞

取英語連詞 conjunction的第1個字母。

dg副語素

副詞性語素。副詞**為 d,語素**g前面置以d。d副詞

取 adverb的第2個字母,因其第1個字母已用於形容詞。e嘆詞

取英語嘆詞 exclamation的第1個字母。

f方位詞

取漢字「方」g語素

絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。

h前接成分

取英語 head的第1個字母。i成語

取英語成語 idiom的第1個字母。

j簡稱略語

取漢字「簡」的聲母。

k後接成分

l習用語

習用語尚未成為成語,有點「臨時性」,取「臨」的聲母。m數詞

取英語 numeral的第3個字母,n,u已有他用。

ng名語素

名詞性語素。名詞**為 n,語素**g前面置以n。n名詞

取英語名詞 noun的第1個字母。

nr人名

名詞** n和「人(ren)」的聲母並在一起。

ns地名

名詞** n和處所詞**s並在一起。

nt機構團體

「團」的聲母為 t,名詞**n和t並在一起。

nz其他專名

「專」的聲母的第 1個字母為z,名詞**n和z並在一起。

o擬聲詞

取英語擬聲詞 onomatopoeia的第1個字母。p介詞

取英語介詞 prepositional的第1個字母。q量詞

取英語 quantity的第1個字母。r代詞

取英語代詞 pronoun的第2個字母,因p已用於介詞。

s處所詞

取英語 space的第1個字母。

tg時語素

時間詞性語素。時間詞**為 t,在語素的**g前面置以t。

t時間詞

取英語 time的第1個字母。u助詞

取英語助詞 auxiliary

vg動語素

動詞性語素。動詞**為 v。在語素的**g前面置以v。v動詞

取英語動詞 verb的第乙個字母。

vd副動詞

直接作狀語的動詞。動詞和副詞的**並在一起。

vn名動詞

指具有名詞功能的動詞。動詞和名詞的**並在一起。

w標點符號

x非語素字

非語素字只是乙個符號,字母 x通常用於代表未知數、符號。

y語氣詞

取漢字「語」的聲母。

z狀態詞

取漢字「狀」的聲母的前乙個字母。

un未知詞

不可識別詞及使用者自定義詞組。取英文unkonwn首兩個字母。(非北大標準,csw分詞中定義)

Python中文分詞元件jieba

output 全模式 我 來到 北京 清華 清華大學 華大 大學 精確模式 我 來到 北京 清華大學 新詞識別 他,來到,了,網易,杭研,大廈 此處,杭研 並沒有在詞典中,但是也被viterbi演算法識別出來了 搜尋引擎模式 小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...

scws中文分詞元件

使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...