python統計excel 表中某一列文字的詞頻

2021-10-12 08:43:36 字數 1394 閱讀 6692

# jieba庫的使用以及csv庫的使用

import jieba

import csv

txt =

open

("complaint.csv"

,'rt'

, encoding=

'utf-8').

read

() # 讀取所需要分析的檔案內容

excel =

open

("baogao.csv"

,'w'

, newline=

'') # 開啟**檔案,若**檔案不存在則建立

writ = csv.

writer

(excel) # 建立乙個csv的writer物件用於寫每一行內容

writ.

writerow([

'名稱'

,'出現次數'

]) # 寫**表頭

words = jieba.

lcut

(txt) # 使用jieba庫對文字進行分詞

counts =

# 建立乙個字典,用於對詞出現次數的統計,鍵表示詞,值表示對應的次數

for word in words:

iflen

(word)

<=1:

continue

else

: counts[word]

= counts.

get(word,0)

+1 # 在字典中查詢若該字返回次數加一

item =

list

(counts.

items()

) # 將字典轉化為列**式

item.

sort

(key=lambda x: x[1]

, reverse=true) # 對列表按照第二列進行排序

for i in range(10

):writ.

writerow

(item[i]

) # 將前十名寫入**

t

把complaint.xlsx變成complaint.csv,沒變之前提示

格式正確!

最後結果顯示為:

統計成功!

下次統計正面情感詞中詞頻前十的資料!

**新增鏈結描述

python統計excel利用pandans的分組

python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...

Python讀取Excel檔案統計演員參演電影

假設有個excel 2007檔案 電影導演演員.xlsx 其中有三列分別為電影名稱 導演和演員列表 同乙個電影可能會有多個演員,每個演員姓名之間使用逗號分隔 現在要求統計每個演員的參演電影分別是哪些。下面的 使用到了擴充套件庫openpyxl來讀取xlsx檔案,需要使用pip進行安裝。根據電影 導演...

Python 讀取Excel資料並分組統計

匯入這個神奇的包 import pandas as pd 參考這個文件 io 是檔案 sheet name 選擇excel 的sheet usecols 選擇當前sheet 的前幾列 names 給每列定義乙個名字 df1 pd.read excel io e haha 測試資料.xlsx shee...