python jieba分詞 詞性標註

2021-10-10 10:10:04 字數 2334 閱讀 2469

進行詞性標註

檔案讀取寫入

做實驗室的乙個專案,暫時要做的內容:對文字資料作摘要(<8)。

首先觀察文字資料,我們需要擷取符號=

open

("cut.txt"

,'r'

,encoding=

'utf-8'

)f1 =

open

("cut_result.txt"

,'w'

,encoding=

'utf-8'

)for line in f.readlines():

#print(line)

a = line.split('0]

print

(a)資料簡單處理好啦,現在我們要對擷取出來的文字進行分詞,使用的是jieba分詞。

import jieba  

import jieba.posseg

import jieba.analyse

jieba.load_userdict(

'c:/users/lucy/desktop/zhengwu_data/new_user_dict.txt'

)#載入外部 使用者詞典

defstopwordslist

(filepath)

: stopwords =

[line.strip(

)for line in

open

(filepath,

'r', encoding=

'utf-8'

).readlines()]

# 停用詞list的建立

return stopwords

# 對句子進行分詞

defseg_sentence

(sentence)

: sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist(

'c:/users/lucy/desktop/zhengwu_data/stopwords.txt'

)# 這裡載入停用詞的路徑

outstr =

''for word in sentence_seged:

if word not

in stopwords:

if word !=

'\t'

: outstr += word

# outstr += " "

return outstr

# 詞性標註

defpos_sentence

(sentence)

: sentence_seged = jieba.posseg.cut(sentence)

outstr =

''for x in sentence_seged:

outstr +=

"{}/{} "

.format

(x.word, x.flag)

return outstr

inputs =

open

('c:/users/lucy/desktop/zhengwu_data/cut_result.txt'

,'r'

, encoding=

'utf-8'

)# 這裡載入待分詞文字注意路徑是相對路徑,轉成utf-8格式

outputs =

open

('c:/users/lucy/desktop/zhengwu_data/fenci_jieguo.txt'

,'w'

, encoding=

'utf-8'

)# 這裡載入待裝入文字注意路徑是相對路徑,轉成utf-8格式

for line in inputs:

line_seg = seg_sentence(line)

# 這裡的返回值是字串

pos_seg = pos_sentence(line_seg)

outputs.write(pos_seg +

'\n'

)outputs.close(

)inputs.close(

)print

("分詞完畢"

)

詞性標註結果:

python jieba 詞性標註

先附上詞性標註表,如下 名詞 1個一類,7個二類,5個三類 名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性慣用語 ng 名詞性語素 時間詞 1個一類,1個二類...

Python jieba分詞常用方法

支援3中分詞模式 1.全模式 把句子中的所有可以成詞的詞語都掃瞄出來,使用方法 jieba.cut 字串 cut all true,hmm false 2.精確模式 試圖將文字最精確的分開,適合於做文字分析。使用方法 jieba.cut 字串 cut all false,hmm true 3.搜尋引...

分詞詞性列表

名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性慣用語 ng 名詞性語素 g語素 2.時間詞 t 時間詞 tg 時間詞性語素 3.處所詞 s 處所詞 4.方位詞...