2 安裝spark和python練習

2022-10-04 03:12:06 字數 1104 閱讀 8016

1.檢查基礎環境hadoop,jdk

2.解壓,資料夾重新命名、許可權

3.配置檔案

4.環境變數

5.試執行python**

二、python程式設計練習:英文文字的詞頻統計

在wc.py中編寫**

path='

/home/hadoop/wc/ff1.txt

'with open(path) as f:

text=f.read()

words =text.split()

wc={}

for word in

words:

wc[word]=wc.get(word,0)+1wclist=list(wc.items())

wclist.sort(key=lambda x:x[1],reverse=true)

print(wclist)

結果為

2 安裝Spark與Python練習

檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...

2 安裝Spark與Python練習

一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...

2 安裝Spark與Python練習

讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別 分詞未去停用詞 text s...