Jieba統計詞頻並生成csv檔案

2022-06-07 05:03:11 字數 1839 閱讀 2655

目錄包括文字框、匯入按鈕、開始按鈕的

import tkinter as tk  # 使用tkinter前需要先導入

window = tk.tk()

window.title('my window')

window.geometry('600x300') # 這裡的乘是小x

t = tk.text(window,width=80,height=15)

t.place(x=10, y=10)

def import_file(): # 在滑鼠焦點處插入輸入內容

pass

def run(): # 在文字框內容最後接著插入輸入內容

print(t.get('0.0','end'))

t.delete('0.0','end')

# tk.messagebox.showinfo(title='', message='')

b1 = tk.button(window, text='匯入', width=10,height=2, command=import_file).place(x=300, y=220)

b2 = tk.button(window, text='執行', width=10,height=2, command=run).place(x=400, y=220)

使用jieba對輸入的文字或讀取的world內容進行基礎分詞,轉成dataframe輸出csv檔案

參考文件:

結巴分詞和詞頻統計

結巴自定義詞典

結巴和pkuseg

jieba 是乙個python實現的中文分詞元件,在中文分詞界非常出名,支援簡、正體中文,高階使用者還可以加入自定義詞典以提高分詞的準確率。

它支援三種分詞模式:

**片段:

jieba的使用很簡單,通常使用的是精確模式。先清洗資料,將標點符號去掉。然後使用jieba.cut(te_text)進行分析,分詞結果匹配停用詞如果在停用詞就不做統計。

#分詞函式

def jiebaword(text):

# 載入自定義詞典

jieba.load_userdict(os.getcwd() + os.sep + 'userdict.txt')

# 載入停用詞

# path = os.getcwd() + os.sep

stoppath = path + 'stopword.txt'

logger.info("載入停用詞 %s " % stopwordslist(stoppath))

# 過濾文字標點符號

te_text = re_content(text)

# 分詞

logger.info("開始分詞")

data = [i for i in jieba.cut(te_text) if i not in stopwordslist(stoppath) and i != ' ']

# 使用collections統計詞頻

logger.info("轉換成datafram")

count_data = collections.counter(list(data))

# 將結果轉成dataframe

df = pd.dataframe(count_data.items(), columns=['key', 'cnt'])

return df

jieba詞頻統計

from wordcloud import wordcloud import matplotlib.pyplot asplt import numpy asnp from pil import image from jieba import def replace text,old,new 替換列表...

jieba庫詞頻統計 運用jieba庫進行詞頻統計

python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...

統計csv詞頻 基於給定詞語列表統計詞頻

基於給定詞語列表並統計詞頻,統計結果輸出到csv中。有兩種實現方法 思路 第一步,整理好待查詢query words 第二步,新建乙個csv檔案,並且將query words以列名寫入csv中 第三步,對文字分詞,得到詞語列表wordlist 第四步,對每乙個query words中的詞語計算其在w...