jieba庫的使用學習

2021-10-05 19:54:08 字數 1874 閱讀 8334

參考文章:

1、雖然有參考文章,但還是自己動手記一下會好得多。jieba(結巴)中文分詞,通過查閱可以看到有以下幾種模式,

支援繁體分詞:

支援自定義詞典:

2、jieba庫常用函式:參考:

3、三種分詞模式:

精確模式:

方法為:jieba.cut,可以設定引數cut_all=true(false),用來控制是否採用全模式 

預設就是精確模式,當設定cut_all=true,就變成了全模式

seg_list = jieba.cut("這裡是偉大的北京天安門")  # 預設是精確模式

print(", ".join(seg_list))

#這裡, 是, 偉大, 的, 北京, 天安門

seg_list = jieba.cut("偉大的北京天安門", cut_all=false)

print("default mode:", "/ ".join(seg_list)) # 精確模式

#default mode: 偉大/ 的/ 北京/ 天安門

全模式:

方法為:jieba.cut,可以設定引數cut_all=true(false),表示是否全切割,

seg_list = jieba.cut("偉大的北京天安門", cut_all=true)

print("full mode:", "/ ".join(seg_list)) # 全模式

#full mode: 偉大/ 的/ 北京/ 天安/ 天安門

搜尋引擎模式:

方法為:cut_for_search

seg_list = jieba.cut_for_search("這裡是偉大的北京天安門,偉大的中華人民共和國!")  # 搜尋引擎模式

print(", ".join(seg_list))

#這裡, 是, 偉大, 的, 北京, 天安, 天安門, ,, 偉大, 的, 中華, 華人, 人民, 共和, 共和國, 中華人民共和國, !

4、自定義詞典模式:

如下的自定義詞典,userdict.txt下的內容

5、詞性標註(將詞語分為動詞、形容詞。。。等)

7、計算統計每個詞語的出現次數

word_dict = {}

with open('./info',mode='r') as f:

for line in f:

word_list = line.split(',')

for word in word_list:

print(word)

# 如果該數字不再字典中,那就建立乙個key

if word not in word_dict:

word_dict[word] = 1

# 如果該字已經在統計字典中,那就+1

else:

word_dict[word] += 1

# sorted是排序的意思,但是不能對字典排序

# word_dict.items()--->('十':1)、('八':2),這樣的資料出現

# key=lambda w:w[1]:這個key是sorted的形參

# print(word_dict.items())

sorted_dict = sorted(word_dict.items(), key=lambda w: w[1], reverse=true)

print(sorted_dict)

目前只接觸到這個程度,後續用到其他再更

jieba庫的使用

jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...

jieba庫的使用

1.jieba庫概述 jieba是優秀的中文分詞第三方庫 2.jieba庫的安裝 cmd命令列 pip install jieba 3.jieba的分詞原理 4.jieba庫的使用 4.1 jieba分詞的的三種模式 4.2 jieba庫常用函式 詞頻統計例項 英文文字 哈姆雷特 英文版 要點 文字...

jieba庫的使用

如何安裝jieba?我們使用cmd命令輸入python m pip install jieba 等一段時間就下好了。jieba庫有啥用?就是將中文語句進行分詞 它有幾種模式 精確模式 全模式 搜尋引擎模式 精確模式 把文字精確地切分開,不存在冗餘單詞 全模式 把文字中所有可能的詞語都掃瞄出來,有冗餘...