結巴中文分詞

2022-09-02 14:33:14 字數 553 閱讀 1285

人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。

分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。

結巴中文分詞支援的三種模式分別為:1.全模式:把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果=jieba.cut(文字名稱,cut_all=true) ;print("分詞符號".join(分詞結果)2.精準模式:試圖將句子最精準的切開,適合文字分析。分詞結果=jieba.cut(文字名稱,cut_all=false) ;print("分詞符號".join(分詞結果)3.搜尋引擎模式:在精準模式的基礎上,對長詞再次進行切分,提高召回率,適合用於搜尋引擎分詞。分詞結果=jieba.cut_for_search(文字名稱) ;print("分詞符號".join(分詞結果)4.預設模式。分詞結果=jieba.cut(文字名稱);print("分詞符號".join(分詞結果))

用python語言在pycharm上實現,如下:

結巴中文分詞使用學習(python)

精確模式 預設 試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。注意 jieba.cut以及jieba.cut for sear...

結巴中文分詞安裝與使用

1 安裝 pip install jieba 2 示例 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 輸出 我 來到 北京 清華 清華大學 華大 ...

結巴中文分詞之PHP擴充套件

array jieba string text,bool use extract false,long extract limit 10 git clone cd phpjieba cjieba make cd phpize configure make make installextension ...