Spark需要改進的點整理

1.主要還是記憶體問題

基於jvm的大資料程式都很難避開資源管理或者記憶體管理這個問題

(a) jvm的記憶體overhead太大，1g的資料通常需要消耗5g的記憶體 -> project tungsten 正試**決這個問題；

最明顯的當然是記憶體需要太多，花錢太多。

還有部署麻煩，能否一鍵安裝。

執行過程中不要老是oom。

能否自動調優等等

1. 不穩定，集群偶爾會掛掉。只適合做計算，不適合直接提供服務。

2. 資料的partition不夠好，會導致集群中的各台機器上計算任務分配不平均。

3. 任務排程不夠好。

spark記憶體計算體現它可以將rdd常駐記憶體（記憶體不足也會溢寫到磁碟的），這樣可以減少磁碟io。缺點的話我覺得在於1.資源排程方面，spark和hadoop不同，執行時採用的是多執行緒模式，hadoop是多程序，多執行緒模式會減少啟動時間，但也帶來了無法細粒度資源分配的問題。但本質上講其實這也不能算是spark的缺點，只不過是tradeoff之後的結果而已。2.其實spark這種利用記憶體計算的思想的分布式系統你想要最大發揮其效能優勢的話對集群資源配置要求較高，比如記憶體（當然記憶體不足也能用），通俗地說就是比較燒錢。

spark或者說基於jvm的大資料程式都很難避開資源管理或者記憶體管理這個坑，說到底，隔了一層jvm。

相對而言，kudu/impala在這方面就會有一些優勢。

當然記憶體玩花的***就是玩不好，帶來的問題要比jvm會麻煩的多的多。

Spark需要改進的點整理

uboot的啟動要點整理

有用的知識點整理

classList屬性的知識點整理

Spark需要改進的點整理

uboot的啟動要點整理

有用的知識點整理

classList屬性的知識點整理

相關推薦