Python第三方庫jieba中文分詞庫及應用

2021-10-05 00:27:30 字數 1247 閱讀 5006

1.jieba庫是優秀的中文分詞第三方庫。

英文文字中,各個單詞間本來就有空格將它們隔開,而在中文文字裡面,詞語和詞語之間是相連的,不能通過簡單的以空格來切片文章(通過str.split(" ")方法),因此就需要用到jieba庫

2.jieba庫的分詞模式

1.jieba分詞依靠中文詞庫。利用乙個中文詞庫,確定中文字元之間的關聯概率。當然我還也可以自定義地向詞庫中新增內容(如果是近幾年剛開始出現的名詞比如大資料雲計算這些就需要自己新增)或者刪除內容(自定義停用詞庫,所謂停用詞庫就是不允許劃分出的詞語例如把人名當做乙個詞語…)等等。

2.jieba庫的3種分詞模式以及方法

精確模式:把文字精確地切分開,不存在冗餘單詞(重複單詞)。

lt1=jieba.lcut(s)#精確模式

全模式:把文中所有可能的詞語都掃瞄出來,存在冗餘

lt2=jieba.lcut(s,cut_all=true)#全模式

搜尋引擎模式:在精確模式的基礎上,對長詞再次切分。

lt3=jieba.lcut_for_search(s)#搜尋引擎模式

三種方法中的s表示字串,lt1,lt2,lt3是它們的返回值,是列表型別

2.jieba庫的一些操作函式

1.向詞庫中新增自定義詞語:jieba.add_word(w)

jieba.add_word("大資料")

2.新增自定義詞庫(字典):jieba.load_userdict(f)

jieba.load_userdict('./addword.txt')

f表示停用詞表的檔案路徑,r表示以read讀的方式來獲取檔案資訊,stopwords的型別是列表,上式屬於列表推導式

Python第三方庫jieba學習筆記

pip安裝 pip install jieba 精確模式 將句子最精確的切開,適合文字分析全模式 把句子中所有可以成詞的詞語都掃瞄出來,速度非常之快,但是不能解決歧義搜尋引擎模式 在精確模式的基礎上,對長詞再次分割,提高召回率,適合用於搜尋引擎分詞jieba.lcut s 精確模式,返回乙個列表型別...

PyThon第三方庫

本文 自 戀花蝶的部落格 今天公司停電,沒上班。跑上來更新個部落格,跟大家分享一下我常用的幾個第三方 python 庫。python 語言之所以能夠如此流行,除了本身內建許多程式庫來保障快速開發之外,目不睱接的第三方庫也是一大主因。結合我目前的工作 網遊開發 我常用的幾個第三方庫如下 wxpytho...

python 第三方庫

requests 模組 具體詳見 requests 是用python語言編寫的第三方庫,基於 urllib,採用 apache2 licensed 開源協議的 http 庫。它比 urllib 更加方便,完全滿足 http 測試需求,多用於介面測試 常用介面 1.requests.request m...