自然語言處理之中文分詞工具彙總

2021-10-01 19:52:32 字數 2026 閱讀 9273

import jieba

jieba.load_userdict(

'***.txt'

)#載入自定義詞

deffunc_jieba()

: posseg_ret = jieba.posseg.cut(

'這衣服都起球了,給我退了吧'

) list_jieba =

[i for i in posseg_ret]

print

(list_jieba)

from snownlp import snownlp

deffunc_snownlp()

: s_ret = snownlp(

'這衣服都起球了,給我退了吧'

) emotion = s_ret.sentiments #情感分析結果積極得概率值 0.21577271188779912

print

(emotion)

list_snownlp =

[i for i in s_ret.tags]

#s_ret.words 輸入為切完得詞 s_ret.tags為帶詞性得詞

print

(list_snownlp)

支援了新聞領域,網路領域,醫藥領域,旅遊領域,以及混合領域的分詞

import pkuseg

deffunc_pkuseg()

: pku_seg = pkuseg.pkuseg(model_name=

'web'

,postag=

true

)#model_name預設為混合領域 postag為詞性標註

pku_ret = pku_seg.cut(

'這衣服都起球了,給我退了吧'

) list_pkuseg =

[i for i in pku_ret]

print

(list_pkuseg)

import thulac

deffunc_thulac()

: thup = thulac.thulac(seg_only=

true

)#seg_only=true 為不標註詞性

thulac_ret = thup.cut(

'這衣服都起球了,給我退了吧'

,text=

true

)#text=true 以字串顯示 false為以列表顯示

print

(thulac_ret)

可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞

基於bilstm模型訓練而成

包含分詞,詞性標註,實體識別, 都有比較高的準確率

使用者自定義詞典

可訓練自己的模型

批量處理

import fool

deffunc_foolnltk()

: text =

['資料庫的戶口殺害'

,'傷口縫合的卡號發資料會丟失'

] fool_ret = fool.cut(text)

print

(fool_ret)

fool_ret1 = fool.pos_cut(

'這衣服都起球了,給我退了吧'

) list_foolnltk =

[i for i in fool_ret1[0]

]print

(list_foolnltk)

壓縮檔案有600多m,解壓後1.2g,裡面有不同nlp任務的模型,故未測試

第乙個是:stanford-corenlp-full-2018-02-27.zip

第二個是:stanford-chinese-corenlp-2018-02-27-models.jar

前者解壓後把後者也要放進去,否則指定中文的時候會報錯。

工具千千萬 順手才是最好得工具,如有更好得開源中文分詞工具歡迎相互交流。

自然語言處理 中文分詞原理

1.1中文分詞概述 中文分詞 將乙個漢字序列分成乙個乙個的單獨的詞。分詞 將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2中文分詞方法 一般有以下三類 基於詞典匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。1.2.1 基於詞典 字串匹配 機械分詞法 匹配的分詞方法 按照一定的策略...

自然語言處理 結巴分詞

jieba分詞的三種模式的對比 import jieba text 在精確模式的基礎上對長詞再次劃分提高召回率 text list jieba.cut text,cut all true print 全模式 print join text list print 精確模式 text list jieb...

自然語言處理 漢語分詞

nlpir ictclas 漢語分詞系統 pynlpir 是該漢語分詞系統的 python 封裝版 安裝步驟 pip install pynlpir pynlpir update 官方文件的漢語分詞示例 import pynlpir pynlpir.open str 歡迎科研人員 技術工程師 企事業...