mysql呼叫jieba庫 jieba庫的使用

2021-10-20 23:32:31 字數 1642 閱讀 1101

jieba是優秀的中文分詞第三方庫

jieba有3種模式

1.精確模式,返回乙個列表型別的分詞結果

>>>jieba.lcut("中國是乙個偉大的國家")

['中國', '是', '乙個', '偉大', '的', '國家']

2.全模式,返回乙個列表型別的分詞結果,存在冗餘

>>>jieba.lcut("中國是乙個偉大的國家",cut_all=true)

['中國', '國是', '乙個', '偉大', '的', '國家']

3.搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘

>>>jieba.lcut_for_search(「中華人民共和國是偉大的")

['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

jieba向分詞詞典增加新詞

jieba.add_word(w)

>>>jieba.add_word("蟒蛇語言")

例項一:hamlet英文詞頻統

#calhamletv1.py

def gettext():

txt = open("hamlet.txt", "r").read()

txt = txt.lower()

for ch in'!"#$%&()*+,-./:;<=>?@[\\]^_『~':

txt = txt.replace(ch, " ")

return txt

hamlettxt= gettext()

words = hamlettxt.split()

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key=lambdax:x[1], reverse=true)

for i in range(10):

word, count = items[i]

print("".format(word, count))

例項二:中文文字分詞

#calthreekingdomsv1.py

import jieba

txt = open("threekingdoms.txt", "r", encoding="utf-8").read()

words = jieba.lcut(txt)

counts = {}

for word in words:

if len(word) == 1:

continue

elif word =="1" or word=="2": #加上elif後濾除1、2人稱謂顯示,只顯示3稱謂

rword=="3"

else:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=true)

for i in range(15):

word, count = items[i]

print("".format(word, count))

jieba庫詞頻統計 運用jieba庫進行詞頻統計

python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...

jieba庫詞頻統計 jieba庫的使用與詞頻統計

1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...

jieba庫的使用

jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...