hadoop spark相關概念

2021-08-20 13:29:40 字數 1896 閱讀 4465

1.啟動hdfs模組

此時 50070就可以訪問了,載入磁碟

./start-dfs.sh
namenode 

secodarynamenode

datanode
2.hadoop1.x原理說明

3.hadoop2.x yarn啟動

啟動資源管理器,此時 8088就可以訪問了,載入磁碟

./start-yarn.sh
resourcemanager

nodemanager
4.spark集群
cluster manager

包括standalone/apche mesos/yarn/k8

worker node

5.spark特性(部分)

spark-defaults.conf 中新增

spark.yarn

.historyservice

.address masster:18080

spark.histroy

.fs.logdirectory hdfs://master:9000/historyserverforspark

./spark-shell

--master spark://master:7077

spark shell操作demo

//會根據環境配置去對應的資料夾,預設hdfs

:21scala> data.todebugstring

res0: string =

:21

:21

scala> data.count

res1: long = 16516

scala> val flatted = data.flatmap(_.split(" "))

:23scala> flatted.todebugstring

res3: string =

:23

:21

:21

:25res4: string =

:25

:23

:21

:21

reduced: org.apache.spark.rdd.rdd[(string, int)] = shuffledrdd[4] at reducebykey at

:27scala> reduced.todebugstring

res5: string =

(12) shuffledrdd[4] at reducebykey at

:27

:25

:23

:21

:21

sh /opt/nsfocus/espc/deps/spark/bin/spark-submit --class org.apache

.spark

.examples

.sparkpi --master spark://master:7077 ../lib/spark-examples-1.6

.0-hadoop2.6

.0.jar

1.自動進行記憶體和磁碟的切換

2.基於lineage的高效容錯

3.task如果失敗,會自動進行特定次數的重試

4.stage如果失敗,會自動進行特定次數的重試,只提交失敗的stage

快取時機:

checkpoint、特別耗時的計算、shuffle之後

Hadoop Spark 常見問題 二

spark 1.rdd?資料集拆分 資料儲存在記憶體或者磁碟 多分割槽 失效自動重構 轉換操作構造 2.rdd倆種依賴?窄依賴 父rdd中的分割槽最多只能被乙個子rdd的乙個分割槽使用 和寬依賴 子rdd依賴於所有父rdd 3.spark 角色?1.driver main函式在裡面 2.sparco...

Hadoop spark集群 hbase的安裝

上傳 hbase 1.2.3 bin.tar.gz 到node01 cd tools tar zxvf hbase 1.2.3 bin.tar.gz c ren 配置環境變數 vi etc profile export hbase home ren hbase 1.2.3 export path p...

Lodrunner相關概念

1.集合點 集合虛擬使用者,以便於準備好使用者,一致在某個時刻執行任務 在某個時間把需要虛擬的使用者數目準備好 如何新增集合點 設定指令碼執行場景時,也可以對集合點策略進行相應配置 2.事物 事物是用來度量伺服器響應事物的時間。乙個完整任務有開始,結束 插入事物方式有2種 事物狀態有3種 lr pa...