spark面試總結3

spark core面試篇03

1.spark使用parquet檔案儲存格式能帶來哪些好處？

如果說hdfs 是大資料時代分布式檔案系統首選標準，那麼parquet則是整個大資料時代檔案儲存格式實時首選標準

速度更快：從使用spark sql操作普通檔案csv和parquet檔案速度對比上看，絕大多數情況

會比使用csv等普通檔案速度提公升10倍左右，在一些普通檔案系統無法在spark上成功執行的情況

下，使用parquet很多時候可以成功執行

parquet的壓縮技術非常穩定出色，在spark sql中對壓縮技術的處理可能無法正常的完成工作

（例如會導致lost task，lost executor）但是此時如果使用parquet就可以正常的完成

極大的減少磁碟i/o,通常情況下能夠減少75%的儲存空間，由此可以極大的減少spark sql處理

資料的時候的資料輸入內容，尤其是在spark1.6x中有個下推過濾器在一些情況下可以極大的

減少磁碟的io和記憶體的占用，（下推過濾器）

spark 1.6x parquet方式極大的提公升了掃瞄的吞吐量，極大提高了資料的查詢速度spark1.6和spark1.5x相比而言，提公升了大約1倍的速度，在spark1.6x中，操作parquet時候cpu也進行了極大的優化，有效的降低了cpu

12.spark中task有幾種型別？

答：2種型別：1）result task型別，最後乙個task，2是shufflemaptask型別，除了最後乙個task都是

13.union操作是產生寬依賴還是窄依賴？

答：窄依賴

14.rangepartioner分割槽器特點？

答：rangepartioner盡量保證每個分割槽中資料量的均勻，而且分割槽與分割槽之間是有序的，乙個分割槽中的元素肯定都是比另乙個分區內的元素小或者大；但是分區內的元素是不能保證順序的。簡單的說就是將一定範圍內的數對映到某乙個分區內。rangepartitioner作用：將一定範圍內的數對映到某乙個分區內，在實現中，分界的演算法尤為重要。演算法對應的函式是rangebounds

15.什麼是二次排序，你是如何用spark實現二次排序的？（網際網路公司常面）

答：就是考慮2個維度的排序，key相同的情況下如何排序，參考博文：

16.如何使用spark解決topn問題？（網際網路公司常面）

答：常見的面試題,參考博文：

17.如何使用spark解決分組排序問題？（網際網路公司常面）

組織資料形式：

aa 11

bb 11

cc 34

aa 22

bb 67

cc 29

aa 36

bb 33

cc 30

aa 42

bb 44

cc 49

需求：1、對上述資料按key值進行分組

2、對分組後的值進行排序

3、擷取分組後值得top 3位以key-value形式返回結果

答案：如下

spark面試總結3

Spark面試術語總結

spark面試總結1

面試總結 3

spark面試總結3

Spark面試術語總結

spark面試總結1

面試總結 3

相關推薦