NLP之路 Jieba庫安裝與使用

2021-10-06 02:15:05 字數 1286 閱讀 3032

在自然語言領域,分詞是很重要的,雖然很多深度文字網路都會自動分詞,但是理解分詞很重要。下面講解乙個jieba庫的安裝與使用

先安裝一下jieba庫

pip install -i jieba

以上是使用映象的方法安裝jieba庫

安裝完畢後測試一下

import jieba

print

(jieba.__version__)

seg = jieba.cut(

"這是一段中文字元"

, cut_all =

false

)print

(' '

.join(seg)

)

結果顯示

這一對紅色的玩意我不知道是什麼,反正沒啥影響,不管了

下面對jieba的常用的三種不同模式進行測試

import jieba

#精確模式,試圖將句子最精確地切開,適合文字分析

seg = jieba.cut(

"這是一段中文字元"

, cut_all =

false

)print

(' '

.join(seg)

)#全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義

seg = jieba.cut(

"這是一段中文字元"

, cut_all =

true

)print

(' '

.join(seg)

)#搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。

seg =jieba.cut_for_search(

"這是一段關於結巴分詞的中文句子"

)print

(' '

.join(seg)

)

顯示分詞結果

注意:jieba.cut以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator,並不是乙個list列表

jieba庫的安裝與使用

cmd命令列 pip install jieba也可以安裝國內映象 1 jieba庫概述jieba庫是優秀的中文分詞第三方庫。中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 2 jieba庫分詞原理 jieb...

Python初學13 jieba庫簡介與使用

目錄 一 jieba庫基本介紹 二 jieba庫的使用說明 三種模式 lcut lcut for search add word 三 文字詞頻統計 例項 簡單說,jieba是乙個非常好用的中文工具,以分詞起家,但功能比分詞要強大很多。而且,全國計算機等級考試二級python語言必考jieba庫。ji...

jieba庫詞頻統計 jieba庫的使用與詞頻統計

1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...