百度面試總結

2021-09-02 02:45:18 字數 616 閱讀 5606

1、mapreduce的流程

幾個shuffle,幾個partition,幾次落地磁碟,在combiner裡邊都做了什麼事情

在切分的時候,1029m會切分成幾個切片

2、怎麼能夠確保消費kafka中的資料不重複,也不丟失

不重複可以通過設定zookeeper儲存offset來設定

如果sparkstreaming消費kafka中的資料,消費了一部分之後發現資料處理的有問題,需要重新做處理,這時候怎麼消費,怎麼做。

3、spark基於yarn模式的理解,畫圖說明

4、hive底層是怎麼實現的

5、畫圖說明mapreduce計算wordcount,每一步的結果是什麼

6、mapreduce計算wordcount,需要實現那幾個超類,分別是什麼,知道幾個。

7、kafka中增加併發量的方式有那幾種方式

8、mapreduce中inputformat與 outputformat

9、mapreduce中1029m資料是則麼切分的

10、對hive的理解,什麼是元資料,元資料都人為哪幾種

百度面試及總結

第一道很簡單,問程式在記憶體有幾個資料區,堆和棧區有啥區別 第二道是兩個有序陣列 可能公升序或降序 要求合併到乙個大陣列中,使其仍然有序,講了大體思路,並用c簡單寫了實現 第三道是給出int型的x y兩個數,要求不借助第三個變數交換x和y的值,啊。從大一開始學c,碰到過用value傳參 引用傳參 指...

2019 04 13百度面試總結

二 資料庫 出個題會做題嗎 三 實習 首先簡歷要重新寫,讓人看明白意思 已經修改 1.強化學習q learning 演算法和sarsa演算法的推導 2.rnn lstm具體介紹一下。10.中文分詞的訓練集是什麼樣子的 11.訓練分類的特徵是什麼 12.nlp還有什麼了解的麼,就說了個word2vec...

百度面試問題總結

1,redis中list的資料結構?2,redis的主從複製原理?3,mybatis將資料庫中字段與dto中的變數對應的原理?4,spring aop的原理?模式?5,工廠模式的實現?6,反射?反射的應用?7,tcp ip協議time out命令的執行?關閉連線需要幾步?服務端怎麼知道傳送了fin請...