企業級Spark應用程式的永久儲存

2021-10-07 05:40:18 字數 1003 閱讀 4237

apache spark變得非常流行,並在大資料社群中得到廣泛使用。 spark獲得如此swift的吸引力有幾個原因。 這些功能包括其記憶體中處理能力,對各種用例(例如流傳輸,機器學習和sql)的各種引擎的支援,以及使用多種語言(例如python和scala)進行開發的能力。 關於spark的興趣和勢頭在市場上非常真實。 6月初,mapr宣布了企業級apache spark發行版 。 這樣做的原因很簡單-使您更容易將spark用作資料體系結構中的主要大資料計算引擎。 這是否意味著我們正在遠離hadoop / mapreduce和所有相關的生態系統工具? 絕對不。 我們只是在為客戶提供如何開始大資料旅程的更多選擇。

mapr在支援apache spark的大資料**商中已經領先兩年多了,下一步是提供單獨的「僅火花」分發。 包括spark在內的mapr平台是本地和雲中spark負載唯一可靠且可投入生產的平台。 現在,您將獲得用於批處理和實時處理的聚合計算和儲存引擎,可幫助您快速構建和部署應用程式。 mapr streams(用於提供事件流),spark streaming(用於流分析)和mapr-db(用於儲存這些結果)的組合正成為在跨各種用例(例如推薦引擎,客戶流失**和iot)的實時分析探索中的一種一致模式應用程式。

您可能已經知道,spark沒有自己的永續性資料儲存功能。 儘管它被譽為高速記憶體引擎,但對於資料集無法完全容納在記憶體中的任務,它仍然需要經濟高效的資料儲存。 spark可以使用多種儲存機制。 我認為最合適的機制是分布式檔案系統,它可以輕鬆儲存spark彈性分布式資料集(rdd)。 與其他hadoop**商一起使用spark時,hdfs充當hadoop和spark資料的儲存層。 這通常在與嚴格的sla無關的開發和測試環境中效果很好。 但是,由於資料保護和災難恢復功能不足,在特定任務集群之間移動資料的需求以及缺乏真正的多租戶功能,大多數it經理發現hdfs處理關鍵業務,生產工作負載面臨的挑戰。 mapr平台正是針對這些不足而構建的,它是從頭開始實現的。 憑藉其企業級功能,使用商品硬體而降低的總擁有成本以及在輕鬆儲存各種資料型別方面的靈活性,包括spark在內的mapr平台應列入任何調查其spark選項的組織的短名單中。

Spark企業級應用開發和調優

spark專案程式設計優化歷程記錄,主要介紹了spark企業級別的開發過程中面臨的問題和調優方法。包含合理分配分片,避免計算中間結果 大資料量 的collect,合理使用map,優化廣播變數等操作,降低網路和磁碟io,提高計算效率。首先如下圖 2.1 spark應用開發在集群 偽分布式 中的記錄,每...

Spark企業級應用開發和調優

spark專案程式設計優化歷程記錄,主要介紹了spark企業級別的開發過程中面臨的問題和調優方法。包含合理分配分片,避免計算中間結果 大資料量 的collect,合理使用map,優化廣播變數等操作,降低網路和磁碟io,提高計算效率。首先如下圖 2.1 spark應用開發在集群 偽分布式 中的記錄,每...

關於Docker的企業級應用

難怪docker正在迅速發展。docker,乙個開源專案。僅僅兩年,docker價值近10億美元,最近獲得了9500萬美元的資金。令人激動的是,我們看到有這麼多開發者對這個專案的熱情。然而,我將在下面討論企業使用docker本身是不夠的。許多企業it團隊解決這兩個問題 首先,開發者和運維者在優先順序...