2 安裝Spark與Python練習

2022-10-07 18:15:09 字數 1615 閱讀 2427

#讀檔案

text = open("

work1.txt

", '

r', encoding='

utf-8

').read()

#載入停用詞表

stopwords = [line.strip() for line in open('

stopword.txt

', encoding='

utf-8

').readlines()] #

list型別

#分詞未去停用詞

text_split = jieba.cut(text) #

未去掉停用詞的分詞結果 list型別

#去掉停用詞的分詞 list型別

text_split_no =

for word in

text_split:

if word not

instopwords:

text_split_no_str = '

'.join(text_split_no) #

list型別分為str

hamlettxt =text_split_no_str

words = hamlettxt.split() #

獲得分割完成的單詞列表

counts = {} #

建立空字典,存放詞頻統計資訊

for word in

words:

counts[word] = counts.get(word, 0) + 1 #

若字典中無當前詞語則建立乙個鍵值對,若有則將原有值加1

items = list(counts.items()) #

將無序的字典型別轉換為有序的列表型別

items.sort(key=lambda x: x[1], reverse=true) #

按統計值從高到低排序(以第二列的次數排序)

for i in range(50):

word, count =items[i]

print("

".format(word, count)) #

格式化輸出詞頻統計結果

write1 = str(items) #

強制轉換內容的型別

w = open("

writeword.txt

","r+")

w.write(write1)

#寫入詞頻統計結果

w.close()

執行結果:    

寫入檔案:

停用詞:

2 安裝Spark與Python練習

檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...

2 安裝Spark與Python練習

一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...

2 安裝Spark與Python練習

一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 配置環境 修改環境變數 vim bashrc 生效 source bashrc 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 統計每個單詞出現的次數 結果寫檔案 三 根據自己的程式設計習慣...