Spark需要改進的點整理

2021-07-28 05:32:53 字數 728 閱讀 4154

1.主要還是記憶體問題

基於jvm的大資料程式都很難避開資源管理或者記憶體管理這個問題

(a) jvm的記憶體overhead太大,1g的資料通常需要消耗5g的記憶體 -> project tungsten 正試**決這個問題;

最明顯的當然是記憶體需要太多,花錢太多。

還有部署麻煩,能否一鍵安裝。

執行過程中不要老是oom。

能否自動調優等等

1. 不穩定,集群偶爾會掛掉。只適合做計算,不適合直接提供服務。

2. 資料的partition不夠好,會導致集群中的各台機器上計算任務分配不平均。

3. 任務排程不夠好。

spark記憶體計算體現它可以將rdd常駐記憶體(記憶體不足也會溢寫到磁碟的),這樣可以減少磁碟io。缺點的話我覺得在於1.資源排程方面,spark和hadoop不同,執行時採用的是多執行緒模式,hadoop是多程序,多執行緒模式會減少啟動時間,但也帶來了無法細粒度資源分配的問題。但本質上講其實這也不能算是spark的缺點,只不過是tradeoff之後的結果而已。2.其實spark這種利用記憶體計算的思想的分布式系統你想要最大發揮其效能優勢的話對集群資源配置要求較高,比如記憶體(當然記憶體不足也能用),通俗地說就是比較燒錢。

spark或者說基於jvm的大資料程式都很難避開資源管理或者記憶體管理這個坑,說到底,隔了一層jvm。

相對而言,kudu/impala在這方面就會有一些優勢。

當然記憶體玩花的***就是玩不好,帶來的問題要比jvm會麻煩的多的多。

uboot的啟動要點整理

對於ppc e500mc而言,從上電的一開始,cpu有預設配置的tlb位址空間,cpu執行的第一條指令一定在這個空間內,這樣虛擬位址才能轉換為實體地址,然後還有啟動的law local access window 預設配置 從實體地址到器件 比如cpu的片選cs0會選擇norflash,然後預設的l...

有用的知識點整理

時間的相互轉化 from dateutil.relativedelta import relativedelta from datetime import import time t int str date.today split 1 3 現在的日期與3月相差幾個月 today date.toda...

classList屬性的知識點整理

classlist屬性返回元素的類名,作為domtokenlist物件 該屬性用於在元素中新增 移出 切換css類 語法 elem.classlist 方法 add string string 新增指定的類值。如果這些類已經存在於元素的屬性中,那麼他們將被忽略 remove string strin...