2 安裝Spark與Python練習

2022-10-08 05:00:06 字數 1747 閱讀 3110

配置spark的classpath

$ cd /usr/local/spark

$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh #

拷貝配置檔案

export spark_dist_classpath=$(/usr/local/hadoop/bin/hadoop classpath)
儲存配置檔案後,就可以啟動、執行spark

在gedit~/.bashrc檔案中加入

圖1環境變數

source ~/.bashrc    #

環境變數生效

執行如下命令啟動pyspark(無引數,預設是local[*]模式)

cd /usr/local/spark

./bin/pyspark

啟動pyspark,成功後在輸出資訊的末尾可以看到「>>>」的命令提示符

在裡面輸入python**進行測試:

圖2pyspark執行介面

準備英語文字 f1.txt

圖三英語文字

path='

/home/hadoop/wc/f1.txt

'with open(path) as f:

text=f.read()

text = text.lower()                           #

轉為小寫字母

for ch in

'!"#$%&()*+,-./:;<=>?@[\\]^_『~

':

text = text.replace(ch, '

')

words = text.split()

counts={}

for word in

words:

#若字典中無當前詞語則建立乙個鍵值對,若有則將原有值加1

counts[word] = counts.get(word, 0) + 1items = list(counts.items()) #

將無序的字典型別轉換為有序的列表型別

items.sort(key=lambda x: x[1], reverse=true)      #

按統計值從高到低排序(以第二列排序)

for i in

range(len(items)):

word, count =items[i]

print("

".format(word, count)) #

格式化輸出詞頻統計結果

open('

output.txt

', '

a').write(word+"

\t\t\t

"+str(count)+"

\n") #

寫入output.txt中

圖四執行結果

2 安裝Spark與Python練習

檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...

2 安裝Spark與Python練習

一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...

2 安裝Spark與Python練習

讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別 分詞未去停用詞 text s...