Spark的安裝和使用

2022-08-04 01:03:12 字數 804 閱讀 7694

根據spark2.1.0入門:spark的安裝和使用在虛擬機器安裝spark,並進行測試

實驗3  spark讀取檔案系統的資料

將檔案上傳hdfs

(1)在spark-shell中讀取linux系統本地檔案「/home/hadoop/test.txt」,然後統計出檔案的行數;

(2)在spark-shell中讀取hdfs系統檔案「/user/hadoop/test.txt」(如果該檔案不存在,請先建立),然後,統計出檔案的行數; 

(3)編寫獨立應用程式,讀取hdfs系統檔案「/user/hadoop/test.txt」(如果該檔案不存在,請先建立),然後,統計出檔案的行數;通過sbt工具將整個應用程式編譯打包成 jar包,並將生成的jar包通過 spark-submit 提交到 spark 中執行命令。

一 使用Python 執行Spark的安裝

過程主要分為五步 其中1,2,4很簡單,使用python的朋友們應該都是會的,這裡不再贅述 pip install u i pyspark不過這裡最好使用管理員許可權執行cmd,然後再執行上面的命令 如果是mac使用者,則需要執行的是 sudo pip install u i pysparkfrom...

2 安裝spark和python練習

1.檢查基礎環境hadoop,jdk 2.解壓,資料夾重新命名 許可權 3.配置檔案 4.環境變數 5.試執行python 二 python程式設計練習 英文文字的詞頻統計 在wc.py中編寫 path home hadoop wc ff1.txt with open path as f text ...

實驗 3 Spark 和 Hadoop 的安裝

一 實驗目的 1 掌握在 linux 虛擬機器中安裝 hadoop 和 spark 的方法 2 熟悉 hdfs 的基本使用方法 3 掌握使用 spark 訪問本地檔案和 hdfs 檔案的方法。二 實驗平台 作業系統 ubuntu16.04 spark 版本 2.1.0 hadoop 版本 2.7.1...