jieba分詞及詞性標註

2021-09-25 11:44:57 字數 1237 閱讀 1984

jieba分詞及詞性標註

想著先分詞,再給分過的詞標註詞性

很簡單但是弄了蠻久

**也不簡便

要學習啊

雞湯:腳踏實地,眼看前方

import jieba

import jieba.posseg as pseg

jieba.load_userdict('userdict1.txt')

# 建立停用詞list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

# 對句子進行分詞

def seg_sentence(sentence):

sentence_seged = jieba.posseg.cut(sentence.strip())

stopwords = stopwordslist('stop_words.txt') ## 這裡載入停用詞的路徑

outstr = ''

for pairs in sentence_seged:

# print(pairs)

# print('.'*60)

for word in pairs:

# print(word)

# print('='*50)

if word not in stopwords:

if word != '\t':

# print(word)

# print('>'*50)

outstr += word

outstr += "/"

# print(outstr)

outstr += ','

return outstr

inputs = open('input.txt', 'r', encoding='utf-8')

outputs = open('output.txt', 'w', encoding='utf-8')

for line in inputs:

line_seg = seg_sentence(line) # 這裡的返回值是字串

outputs.write(line_seg + '\n')

outputs.close()

inputs.close()

Jieba分詞詞性標註以及詞性說明

import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....

python的jieba分詞詞性標註

在明哥的嚴厲催促下,我終於註冊了我自己的部落格,並且這是我寫的第一篇部落格,寫得不好還請大家多多指出,以幫助小弟在程式設計之路上走得更遠。好了,廢話就不多說了,直接進入主題吧。號稱 做最好的python中文分詞元件 的jieba分詞是python語言的乙個中文分詞包。它的特點有 支援三種分詞模式 精...

jieba詞性標註

ag 形語素形容詞性語素。形容詞 為a,語素 前面置以a。a形容詞 取英語形容詞adjective的第1個字母。ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an名形詞 具有名詞功能的形容詞。形容詞 a和名詞 n並在一起。b區別詞 取漢字 別 的聲母。c連詞 取英語連詞conjunc...