大資料面試題記錄

2022-09-19 02:48:10 字數 636 閱讀 4281

1、用空間換時間,通過大量的預處理來提公升應用系統的使用者體現(效率),因此資料倉儲會存在大量冗餘的資料。

2、如果不分層的話,如果源業務系統的業務規則發生變化將會影響整個資料清洗過程,工作量巨大。

3、通過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分多個步驟去完成,相當於把乙個複雜的工作拆成了多個簡單的工作,把乙個黑盒變成了乙個白盒,每一層的處理邏輯都相對簡單容易理解,這樣我們比較容易保證每乙個步驟的正確性,當資料發生錯誤的時候,往往我們只需要區域性調整某個步驟即可。

1、將json以字串的方式整個入hive表,然後通過使用udf函式解析已經匯入到hive中的資料,比如使用latreal view json_tuple的方法,獲取所需要的列名。

2、在匯入之前將json拆成各個字段,匯入hive表的資料是已經解析過得。這將需要使用第三方的serde

order by 會對輸入做全域性排序,因此只有乙個reducer (多個reducer無法保證全域性有序)只有乙個reducer,會導致當輸入規模較大時,需要較長的計算時間。

sort by 不是全域性排序,其在資料進入reducer前完成排序。因此,如果用sort by 進行排序,並且設定mapred.reduce.tasks>1,則sort by 只保證每個reducer的輸出有序,不保證全域性有序。

大資料面試題記錄

1 海量日誌,檔案太大,ip位址最多有2 32 4g,無法裝入記憶體,將這個大檔案 hash對映 可以取模00 分成多個小檔案 如1000 2 對每個小檔案進行hash統計,hash map ip,value 得到每個檔案出現頻率最多的ip 3 將這些頻率最高的ip進行統計,然後排序得出最大值,這裡...

面試題記錄

面試題記錄 2012年6月13日杭州某網路技術公司 1,空指標自加 int p int pa null p pa p 求p的值 這道題考的貌似指標的加法,因為對於空指標比較敏感直接感覺有問題,所以填寫出錯.到底如何呢?直接反彙編之 int p int pa null 010d14f1 mov dwo...

面試題記錄

筆試面試題總結 1,var a 0 function a catch e 0 this.b bbb var aa new a settimeout function 0 settimeout的作用域是window,所以結果為1,2,bbb,b但是將 中的第二個settimeout去掉之後,結果為1,...