Spark入門 常用Spark監控Tab

2021-07-24 16:27:45 字數 2383 閱讀 5229

最近用spark做任務,中間來回配置集群環境,檢視配置後的效果,以及監測程式執行過程中的執行進度等,需要頻繁檢視webui的幾個tab。各個tab功能不一,從不同方面顯示了spark的各方面效能引數和執行進度。

特意記錄一下,方便以後用得到的時候能夠快速回顧知識點。

第乙個tab是在配置好hadoop之後就可以檢視的。在這之前要先執行start-dfs.sh開啟檔案系統。具體位址為。配置完成後 在瀏覽器中輸入該位址,或直接輸入也可以自動跳轉至該介面,介面效果如下:

在這裡可以檢視集群配置的具體引數,如硬碟大小,使用率、堆疊大小、記憶體大小等資訊。如果自行配置了某個配置項,而又不確定是否已經生效,則可以在這裡檢視結果。

另一方面,結合spark配置集群的時候,如果master節點如前幾篇文章的配置,則master節點只負責集群任務排程,並不參與檔案的儲存和計算任務。因此在這裡的datanode標籤裡只能檢視到work1和work2節點。如果需要將集群的所有資源都排程起來參與儲存和計算,則可以更改配置後,檢視此tab確認配置是否生效。為達到排程所有集群的目的,可以和spark的某一tab配置檢視。

spark的很多計算都是先從外部讀取檔案後轉換成rdd然後才開始rdd轉換和action操作,因此前期很高頻的乙個操作就是將檔案上傳至hdfs檔案系統中儲存。上傳命令不多說,官方文件、各類部落格都可以學習參考。這裡介紹的第二個tab即為檢視hdfs上的檔案,具體位址為/explorer.html#/,具體效果如下:

在這裡我們可以看到hdfs中的檔案和資料夾、檔案大小、block size等資訊,以及上文spark history server配置一文中設定的history資料夾。

hdfs預設的block size為64m和128m。在做spark並行實驗的時候,可以通過修改配置檔案永久改變,或上傳檔案的時候手動設定臨時改變block size的大小。

(1) 修改配置檔案永久改變

修改配置檔案hdfs-site.xml,在之前配置檔案的基礎上,加上下面的配置:

dfs.block.sizename>

33554432value>

property>

該配置的縮排級別與dfs.replication處於同一級。value的值33554432為32m=32*1024*1024,只能是確定值如33554432,不能是計算式32*1024*1024

重新修改value值即可恢復到之前的設定。

(2) 在上傳命令中臨時設定

上傳命令方法簡單,具體命令為:

hadoop dfs -d dfs.blocksize=5242880 -put /home/hadoop/think/data100m.txt /think/
與第乙個tab的hadoop概覽類似,文中的第三個tab是spark配置集群成功後,檢視spark相關配置項的地方,如工作節點的數量、集群可用核心數、可用記憶體、以及各個節點的簡略資訊。方法也是先開啟hdfs,然後執行start-all.sh開啟spark。具體位址為,展示效果如下圖:

配合第乙個tab可以檢視集群中各個工作節點的基本資訊,方便做出相應的更改。

檢視具體的執行時間,job、task數量和執行階段,以及詳細的每個task在節點的執行時間,輸入輸出檔案大小等資訊,並且可以通過圖形介面直觀檢視節點的執行排程資訊。還可以看到dag資訊,雖然不確定是否十分準確。在environment標籤檢視更加詳細的資訊。

在文章spark history server配置一文中已經介紹過spark執行期間和執行結束後的webui監控介面。這裡的第5個tab就是之前介紹的spark history server介面資訊。具體內容與4040埠一致。

以上5個tab即為spark配置和執行前後的一些資訊檢視源。熟練使用可以事半功倍,準確有效地排程集群資源,便於優化。

Spark 面板入門

spark 是 flex 4 中的乙個新特性。spark.skins 包包含在 spark 命名空間中,並且已在adobe 的 flex 4 livedocs 中說明 自定義 spark 為 mxml 檔案,定義組成 spark 元件 的邏輯 圖形元素和其他物件 那麼這對於您意味著什麼呢?我希望這篇...

Spark入門系列

讀完spark官方文件後,在研究別人的原始碼以及spark的原始碼之前進行一番入門學習,這個系列不錯。spark系列 除此之外,databricks也是乙個非常不錯的 上面可以使用免費的spark集群進行 提交與測試,在youtube以及spark大會中都有其發布教程以及spark應用部署的相關細節...

Spark 入門詳解

redis資料持久化什麼作用?將記憶體中的資料寫入到硬碟中,進行永久儲存 防止資料丟失!rdd資料持久化什麼作用?1 對多次使用的rdd進行快取,快取到記憶體,當後續頻繁使用時直接在記憶體中讀取快取的資料,不需要重新計算。2 將rdd結果寫入硬碟 容錯機制 當rdd丟失資料時,或依賴的rdd丟失資料...