復合資料型別，英文詞頻統計

1.列表，元組，字典，集合分別如何增刪改查及遍歷。

列表

（1）增加元素：

insert()方法：在列表指定的位置上增加乙個元素

extend()方法：可迭代，分解成元素新增在末尾

（2）刪除元素：

（3）修改元素：

（4）查詢元素：

元組的增刪改差：

字典

（1）增加元素：

（2）刪除元素：

（3）修改元素：

（4）查詢元素：

集合：

（1）列表

（2）元組

（3）字典

（4）集合

3.詞頻統計

2.通過檔案讀取字串 str

3.對文字進行預處理

4.分解提取單詞 list

5.單詞計數字典 set , dict

6.按詞頻排序 list.sort(key=lambda),turple

7.排除語法型詞彙，代詞、冠詞、連詞等無語義詞

8.輸出top(20)

排序好的單詞列表word儲存成csv檔案

import pandas as pd
pd.dataframe(data=word).to_csv('big.csv',encoding='utf-8')
線上工具生成詞云：

（1）讀取字串進行預處理並分解提取單詞

f=open(r'f:\1.txt','r',encoding='utf8')
word=f.read()
word=word.lower()
s=',.!?'
for c in s:
word = word.replace(c, "")
wordlist=word.split()

（2）單詞計數字典

wordlist
wordset=set(wordlist)
worddict={}
for w in wordset:
worddict[w]=word.count(w)

（3）按詞頻排序

wordsort = list(worddict.items())
wordsort.sort(key = lambda x:x[1],reverse=true)
wordsort

排序後的結果

（4）排除無語義詞

自定義停用詞表

exclude = 
def gettxt():
txt=open(r'f:\1.txt','r',encoding='utf8').read().lower()
s=',.!?'
for c in s:
txt = txt.replace(c, "")
return txt
wordlist = gettxt().split()
wordset = set(wordlist)-exclude
worddict = {}
for w in wordset:
worddict[w]=word.count(w)
wordsort = list(worddict.items())
wordsort.sort(key = lambda x:x[1],reverse=true)
wordsort

結果：

使用stops.txt（連線不上）

（5）輸出top（20）

for i in range(20):
print(wordsort[i])

（6）視覺化

import pandas as pd
pd.dataframe(data=wordsort).to_csv(r'f:\big.csv',encoding='utf-8')

生成詞云：

作業部落格要求：

復合資料型別，英文詞頻統計

1.列表，元組，字典，集合分別如何增刪改查及遍歷。列表 list1 a b c d 設定列表1 print list1 輸出列表1 增list1.insert 4,e 增添元素 print list1 刪list1.pop 3 刪除指定位置元素 print list1 改list1 0 q 直接修改...

復合資料型別，英文詞頻統計

作業部落格要求 1.列表，元組，字典，集合分別如何增刪改查及遍歷。1 列表 list a b hello 1 第一在列表後方新增資料第二為在對應的下邊插入資料 list.insert 0,0 print list 通過pop 根據索引刪除並返回被刪除的元素一般通過for迴圈來遍歷列表，如for ...

復合資料型別，英文詞頻統計

1.列表，元組，字典，集合分別如何增刪改查及遍歷。列表的增刪改及遍歷定義列表 list1 list gzcc 列表的增加 list1.extend yes 列表的刪除 list1.pop 4 列表的修改 list1 0 1 將第0個元素修改為 1 列表的查詢 list1.index 1 列表的遍歷...

復合資料型別，英文詞頻統計

復合資料型別，英文詞頻統計

復合資料型別，英文詞頻統計

復合資料型別，英文詞頻統計

相關推薦