復合資料型別,英文詞頻統計

2022-05-14 22:30:31 字數 1986 閱讀 4883

一、列表,元組,字典,集合分別如何增刪改查及遍歷

1、列表

1)增insert()方法:在列表指定的位置上增加乙個元素

extend()方法:可迭代,分解成元素新增在末尾

2)刪2、元組

3、字典

1)增2)刪

3)改4)查

4、集合

1)增2)刪

聯絡與區別如下:

1、列表的括號是

"[ ]"

,元組的括號是

」( )「

,字典的括號和集合的括號都是」「;

2、列表與元組都為有序序列,字典與集合為無序序列;

3、列表、字典、集合屬於可變序列,而元組屬於不可變序列;

4、列表和元組允許重複,而字典和集合不允許重複;

5、列表以值的方式儲存為值,可通過索引查詢;

元組以值的方式儲存為值,可通過索引查詢;

字典以鍵值對的方式儲存為值,一般通過鍵查詢;

集合以值的方式儲存為值,可以通過set()來將序列和字典轉換為集合。

三、詞頻統計

utf-8

編碼的文字檔案

file

2.通過檔案讀取字串

str3.對文字進行預處理

4.分解提取單詞

list

5.單詞計數字典

set , dict

6.按詞頻排序

list.sort(key=lambda),turple

7.排除語法型詞彙,代詞、冠詞、連詞等無語義詞

排序好的單詞列表

word

儲存成csv

檔案import pandas as pd

pd.dataframe(data=word).to_csv('big.csv',encoding='utf-8')

線上工具生成詞云:

詞頻統計**如下:

import

pandas as pd

mum =

defgetsong():

file=open("

f:", "r"

) song=file.read().lower()

ch="

,.!()

"for c in

ch: song = song.replace(c,''

)

return

song

wordlist=getsong().split()

wordset=set(wordlist) -mum

wordict={}

for w in

wordset:

wordict[w] =wordlist.count(w)

wordsort=list(wordict.items())

wordsort.sort(key= lambda x:x[1],reverse=true)

'''輸出top20

'''for i in range(20):

print

(wordsort[i])

'''儲存為csv檔案

'''pd.dataframe(data=wordsort).to_csv(r'

f:\test.csv

',encoding='

utf-8

')

下面是xiaoshuo.txt:

執行截圖如下:

控制台輸出:

視覺化詞云:

復合資料型別,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。列表 list1 a b c d 設定列表1 print list1 輸出列表1 增list1.insert 4,e 增添元素 print list1 刪list1.pop 3 刪除指定位置元素 print list1 改list1 0 q 直接修改...

復合資料型別,英文詞頻統計

作業部落格要求 1.列表,元組,字典,集合分別如何增刪改查及遍歷。1 列表 list a b hello 1 第一在列表後方新增資料 第二為在對應的下邊插入資料 list.insert 0,0 print list 通過pop 根據索引刪除並返回被刪除的元素 一般通過for迴圈來遍歷列表,如for ...

復合資料型別,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。列表的增刪改及遍歷 定義列表 list1 list gzcc 列表的增加 list1.extend yes 列表的刪除 list1.pop 4 列表的修改 list1 0 1 將第0個元素修改為 1 列表的查詢 list1.index 1 列表的遍歷...