spark面試問題彙總(持續更新 )

2021-07-29 17:38:43 字數 684 閱讀 2971

spark-submit的時候如何引入外部jar包

spark shuffle的具體過程,你知道幾種shuffle方式

spark 如何防止記憶體溢位

cache和pesist的區別

怎麼處理資料傾斜

​簡要描述spark分布式集群搭建的步驟

spark使用:

1)當前檔案a.text的格式為,請統計每個單詞出現的個數、計算第四列每個元素出現的個數

a,b,c,d

b,b,f,e

a,a,c,f

2)在(url,user)的鍵值對中,如

a.text

127.0.0.1 xiaozhang

127.0.0.1 xiaoli

127.0.0.2 wangwu

127.0.0.3 lisi

…..

b.text

127.0.0.4 lixiaolu

127.0.0.5 lisi

127.0.0.3 zhangsan

每個檔案至少有1000萬行,請用程式完成一下工作,

1)各個檔案的ip數

2)出現在b.text而沒有出現在a.text的ip

3)每個user出現的次數以及每個user對應的ip的個數

4)對應ip數最多的前k個user

C 和C語言面試問題(持續更新)

1.c c 記憶體有哪幾種型別?c中,記憶體分為5個區,堆,棧,程式 區,全域性 靜態儲存區和常量儲存區。此外,c 中有自由儲存區一說。全域性變數和static變數會初始化為零,而堆和棧上變數是隨機的不是確定的。2.c c 堆和棧的區別?堆存放動態分配的物件 程式執行時分配的物件,比如區域性變數,其...

Python 問題彙總 持續更新

2017 06 17 1.使用pycharm,寫入如下 的時候 import os os.system tasklist 會發現中文亂碼的情況,這個時候進行以下修改 2.print i love 中國 列印字串的時候,出現亂碼 解決方案如下 1 檔案儲存格式為utf 8 指定的是檔案編碼 2 在檔案...

C 各種面試問題彙總

害,還沒找到工作,太難了,只能繼續努力了,加油衝!1.c 拷貝建構函式為什麼只能引用傳遞,不能按值傳遞 因為按值傳遞的話,得先用拷貝建構函式給形參賦值,又按值傳遞,又呼叫拷貝建構函式,一直這樣無限遞迴,所以不能按值傳遞。2.x x 1 x 1 x 哪個效率最高 x x 1首先取右邊x的位址取值,加1...