學習進度筆記 Spark 環境搭建和使用

2022-05-24 08:00:10 字數 1742 閱讀 6958

實驗前提以及安裝好hadoop和spark

1、使用 hadoop 提供的 shell 命令完成如下操作:

(1) 啟動 hadoop,在 hdfs 中建立使用者目錄「/user/hadoop」;

(2) 在 linux 系統的本地檔案系統的「/home/hadoop」目錄下新建乙個文字檔案 test.txt,並在該檔案中隨便輸入一些內容,然後上傳到 hdfs 的「/user/hadoop」 目錄下;

(4) 將hdfs中「/user/hadoop」目錄下的test.txt檔案的內容輸出到終端中進行顯示;

(5) 在 hdfs 中的「/user/hadoop」目錄下,建立子目錄 input,把 hdfs 中 「/user/hadoop」目錄下的 test.txt 檔案,複製到「/user/hadoop/input」目錄下;

(6) 刪除hdfs中「/user/hadoop」目錄下的test.txt檔案,刪除hdfs中「/user/hadoop」 目錄下的 input 子目錄及其子目錄下的所有內容。

2. spark 讀取檔案系統的資料

(1)在 spark-shell 中讀取 linux 系統本地檔案「/home/hadoop/test.txt」,然後統計出文 件的行數;

(2)在 spark-shell 中讀取 hdfs 系統檔案「/user/hadoop/test.txt」(如果該檔案不存在, 請先建立),然後,統計出檔案的行數;

(3)編寫獨立應用程式,讀取 hdfs 系統檔案「/user/hadoop/test.txt」(如果該檔案不存在, 請先建立),然後,統計出檔案的行數;通過 sbt 工具將整個應用程式編譯打包成 jar 包, 並將生成的 jar 包通過 spark-submit 提交到 spark 中執行命令。

Spark開發環境搭建

二 將這個包解壓到 usr spark 目錄下 三 進入目錄 usr spark spark 2.1.0 bin 選擇需要啟動的指令碼,例如python的shell pyspark 啟動成功後如下圖所示 export spark home usr spark spark 2.1.0 path pa ...

spark部署,環境搭建

spark 部署,環境搭建 部署spark 一 安裝 hadoop 1.改名 33 master 32 node1 34 node2 2.配置三者互相 ssh無密碼登陸 3.設定環境變數。配置配置檔案 logstash與kafka pgsql安裝 安裝psycopg wget tarxfpsycop...

Spark學習進度 實戰測試

題目 該資料集包含了某大學計算機系的成績,資料格式如下所示 tom,database,80 tom,algorithm,50 tom,datastructure,60 jim,database,90 jim,algorithm,60 jim,datastructure,80 請根據給定的實驗資料,在...