大資料學習Spark local模式(實戰)

2021-10-06 17:59:44 字數 1336 閱讀 7028

將spark-2.4.5-bin-without-hadoop-scala-2.12.tgz檔案上傳到linux並解壓縮,放置在指定位置,路徑中不要包含中文或空格,課件後續如果涉及到解壓縮操作,不再強調。

tar -zxvf spark-

2.4.5

-bin-without-hadoop-scala-

2.12

.tgz

-c/opt/modu

le

cd /opt/modu

le

mv spark-

2.4.5

-bin-without-hadoop-scala-

2.12 spark-

local

spark2.4.5預設不支援hadoop3,可以採用多種不同的方式關聯hadoop3ø 修改spark-local/conf/spark-env.s**件,增加如下內容

spark_dist_classpath=

$(/opt/modu

le/hadoop-

3.1.3

/bin/hadoop

classpath)

ø 除了修改配置檔案外,也可以直接引入對應的jar包1) 進入解壓縮後的路徑,執行如下指令

2) 啟動成功後,可以輸入**進行web ui監控頁面訪問在解壓縮資料夾下的data目錄中,新增word.txt檔案。在命令列工具中執行如下**指令(和idea中**簡化版一致)

按鍵ctrl+c或輸入scala指令

:quit

大資料學習

1.資料清洗 洗掉髒資料,對資料最後一步審核和糾正,包括一致性檢查,無效資料,不完整資料,衝突資料,重複資料等的處理,計算機自動完成。2.資料傾斜 資料傾斜就是我們在計算資料的時候,資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些資料的計算速度遠遠低於平均計算速度,導致整個計算過...

大資料學習

hadoop的hdfs和mapreduce子框架主要是針對大資料檔案來設計的,在小檔案的處理上不但效率低下,而且十分消耗記憶體資源 每乙個小檔案占用乙個block,每乙個block的元資料都儲存在namenode的記憶體裡 解決辦法通常是選擇乙個容器,將這些小檔案組織起來統一儲存。hdfs提供了兩種...

大資料如何學習 cda認證 大資料學習之學習要求

眾所周知,大資料是現在非常火的行業,前景也是非常的不錯,大資料要處理的資料成千上萬,資料的處理方法也需要不斷地與時俱進。就現如今的發展趨勢而言,大資料技術的發展如火如荼。在各個領域都得到了廣泛的應用,而且就其目前的發展情況來看,大資料技術具有十分良好的發展前景。正因為這樣,很多人想要學習大資料,對於...