Spark面試題 三

2021-09-26 16:40:40 字數 513 閱讀 2069

39. spark的udf?

因為目前 spark sql 本身支援的函式有限,一些常用的函式都沒有,比如 len, concat...etc 但是使用 udf 來自己實現根據業務需要的功能是非常方便的。spark sql udf 其實是乙個 scala 函式,被 catalyst 封裝成乙個 expression 結點,最後通過 eval 方法計根據當前 row 計算 udf 的結果。udf 對錶中的單行進行轉換,以便為每行生成單個對應的輸出值。例如,大多數 sql 環境提供 upper 函式返回作為輸入提供的字串的大寫版本。

使用者自定義函式可以在 spark sql 中定義和註冊為 udf,並且可以關聯別名,這個別名可以在後面的 sql 查詢中使用。作為乙個簡單的示例,我們將定義乙個 udf 來將以下 json 資料中的溫度從攝氏度(degrees celsius)轉換為華氏度(degrees fahrenheit)。

{"city":"quebec&#

spark面試題 一

1 driver的功能是什麼?1 乙個spark作業執行時包括乙個driver程序,也是作業的主程序,具有main函式,並且有sparkcontext的例項,是程式的人口點 2 功能 負責向集群申請資源,向master註冊資訊,負責了作業的排程,負責作業的解析 生成stage並排程task到exec...

spark經典面試題

1 寬依賴 乙個分割槽對應多個分割槽,這就表明有shuffle過程,父分割槽資料經過shuffle過程的hash分割槽器劃分子rdd。例如 groupbykey reducebykey sortbykey等操作,shuffle可以理解為資料從原分割槽打亂重組到新分割槽 2 窄依賴 乙個分割槽對應乙個...

Spark面試題(一)

1 本地模式 spark不一定非要跑在hadoop集群,可以在本地,起多個執行緒的方式來指定。將spark應用以多執行緒的方式直接執行在本地,一般都是為了方便除錯,本地模式分三類 local 只啟動乙個executor local k 啟動k個executor local 啟動跟cpu數目相同的 e...