spark面試總結3

2022-08-18 21:21:15 字數 1474 閱讀 1019

spark core面試篇03

1.spark使用parquet檔案儲存格式能帶來哪些好處?

如果說hdfs 是大資料時代分布式檔案系統首選標準,那麼parquet則是整個大資料時代檔案儲存格式實時首選標準

速度更快:從使用spark sql操作普通檔案csv和parquet檔案速度對比上看,絕大多數情況

會比使用csv等普通檔案速度提公升10倍左右,在一些普通檔案系統無法在spark上成功執行的情況

下,使用parquet很多時候可以成功執行

parquet的壓縮技術非常穩定出色,在spark sql中對壓縮技術的處理可能無法正常的完成工作

(例如會導致lost task,lost executor)但是此時如果使用parquet就可以正常的完成

極大的減少磁碟i/o,通常情況下能夠減少75%的儲存空間,由此可以極大的減少spark sql處理

資料的時候的資料輸入內容,尤其是在spark1.6x中有個下推過濾器在一些情況下可以極大的

減少磁碟的io和記憶體的占用,(下推過濾器)

spark 1.6x parquet方式極大的提公升了掃瞄的吞吐量,極大提高了資料的查詢速度spark1.6和spark1.5x相比而言,提公升了大約1倍的速度,在spark1.6x中,操作parquet時候cpu也進行了極大的優化,有效的降低了cpu

12.spark中task有幾種型別?

答:2種型別:1)result task型別,最後乙個task,2是shufflemaptask型別,除了最後乙個task都是

13.union操作是產生寬依賴還是窄依賴?

答:窄依賴

14.rangepartioner分割槽器特點?

答:rangepartioner盡量保證每個分割槽中資料量的均勻,而且分割槽與分割槽之間是有序的,乙個分割槽中的元素肯定都是比另乙個分區內的元素小或者大;但是分區內的元素是不能保證順序的。簡單的說就是將一定範圍內的數對映到某乙個分區內。rangepartitioner作用:將一定範圍內的數對映到某乙個分區內,在實現中,分界的演算法尤為重要。演算法對應的函式是rangebounds

15.什麼是二次排序,你是如何用spark實現二次排序的?(網際網路公司常面)

答:就是考慮2個維度的排序,key相同的情況下如何排序,參考博文:

16.如何使用spark解決topn問題?(網際網路公司常面)

答:常見的面試題,參考博文:

17.如何使用spark解決分組排序問題?(網際網路公司常面)

組織資料形式:

aa 11

bb 11

cc 34

aa 22

bb 67

cc 29

aa 36

bb 33

cc 30

aa 42

bb 44

cc 49

需求:1、對上述資料按key值進行分組

2、對分組後的值進行排序

3、擷取分組後值得top 3位以key-value形式返回結果

答案:如下

Spark面試術語總結

今天你比昨天更博學了麼,今天你比昨天更進步了麼,雨愛把時間荒廢在碌碌無為上,還不如踏踏實實學點東西,可能你進步很慢,只要你不放棄,一定可以的 送給正在努力的你 今天的學習 glossary the following table summarizes terms you ll see used to...

spark面試總結1

粗粒度模式 coarse grained mode 每個應用程式的執行環境由乙個dirver和若干個executor組成,其中,每個executor占用若干資源,內部可執行多個task 對應多少個 slot 應用程式的各個任務正式執行之前,需要將執行環境中的資源全部申請好,且執行過程中要一直占用這些...

面試總結 3

1.請列舉你能想到的unix訊號,並說明訊號用途 2.有乙個ip位址,192.168.0.1,請寫出其32位無符號整數形式 3.請寫出http頭,並符合以下要求 a 這是乙個post請求 b 目標 c post變數 username test pwd test2 intro hello world ...