基於私有S3環境高效執行Spark

2021-09-27 13:14:07 字數 609 閱讀 6340

s3已成為在數位化應用程式中儲存非結構化資料塊的標準api。因此,一些**商提供了s3-api相容產品,允許應用程式開發人員對內部私有部署的s3 api進行標準化,並在準備完善後將這些應用程式移植到其他平台上。

s3是最初由amazon建立的物件儲存服務,具有可擴充套件性,資料可用性,支援高效能和高安全性。它提供了豐富的api,可以抽象底層資料儲存,允許從網路上的幾乎任何位置進行訪問。在s3中,基本儲存單元被稱為物件,並被組織成桶。每個物件都通過其金鑰進行標識,並具有與之關聯的元資料。

spark沒有原生的s3實現,因此依賴hadoop提供的類來抽象資料訪問。hadoop為s3提供3個檔案系統客戶端(s3n,s3a和塊s3)。spark在通過這些聯結器使用s3時,需要大量的微調,以提高spark作業效能的可**性。例如,在開始實際工作之前(在格式轉換方面)以及工作完成之後(將結果寫回),分析並檢查spark任務耗時是很重要的。

在理想情況下,將s3資料讀入spark並實現資料共享的過程應該是自動化和透明的。因此,使用者可以部署一層資料編排層(如alluxio)來為spark提供資料訪問,以提高端到端模型開發效率。例如,alluxio可以與spark集群共同部署,通過alluxio posix或hdfs相容介面共享資料,並支援安裝的遠端儲存(如s3)。

MPICH3環境配置

分類 分布式計算 2013 06 20 22 56 4661人閱讀收藏 舉報 mpimpich 1.安裝mpich3 2.配置環境變數 主要是修改path,為path新增mpi的bin目錄 3.配置多伺服器間無密碼訪問 192.168.5.123 node1 192.168.5.124 node2 ...

搭建python3環境

window上安裝python 開啟網頁www.python.org 選擇python3.5 二 安裝 2.等待安裝完成 3.安裝完成後執行python測試下 開啟cmd,輸入python v檢視python版本,1 看到python 3.5.0即表示安裝成功。2 如果看到 python 不是內部或...

GNS3環境搭建

資源 help setup wizard run only legacy ios on my computer next add an ios router using a real ios image new image 選擇c3660 a3jk9s mz.124 15.t14.bin next ...