第十一章 大資料 2019 03 31

2021-09-14 05:41:40 字數 592 閱讀 8642

面試中關於大資料的題目有些是和取樣結合的題目,其實更適合放在概率的章節,但值得注意的是越來越大的題更注重對map-reduce的理解和掌握,map-reduce和hadoop逐漸成為面試的熱門。

雜湊函式又叫雜湊函式,雜湊函式的輸入域可以是非常大的範圍,但是輸出域是固定範圍。假設為s。

雜湊函式的性質:

1、典型的雜湊函式都擁有無限的輸入值域。

2、輸入值相同時,返回值一樣。

3、輸入值不同時,返回值可能一樣,也可能不一樣。

4、不同輸入值得到的雜湊值,整體均勻的分布在輸出域s上。(重要)

md5與sha1演算法都是經典的雜湊函式演算法,了解即可,面試時不要求掌握。

1、map階段→把大任務分成子任務。

2、reduce階段→子任務併發處理,然後合併結果。

注意點:

1、備份的考慮,分布式儲存的設計細節,以及容災策略。

2、任務分配策略與任務進度跟蹤的細節設計,節點狀態的呈現。

3、多使用者許可權的控制。

1、分而治之。通過雜湊函式將大任務分流到機器,或分流成小檔案。

2、常用的hashmap或bitmap。

難點:通訊、時間和空間的估算。

第十一章,插入資料

insert into 表名 values 這種方法沒有明確的指出要插入資料對應的列,所以儲存到每個表列中的資料在values 子句中給出,對每一列必須提供乙個值 insert into 表名 列名.values 值.這種方法因為提供了列名,所以values 必須以其指定的次序匹配指定的列名,不一定...

modern c design 第十一章

本章介紹了經常遇到的雙分派的一種泛型解決方案。c 在語法上實現了單分派,即虛函式,通過動態機制選擇相應的函式。雙分派是形如fun object1 a,object2 b 根據a和b的實際型別動態自動分派乙個處理函式。最容易想到的方案,蠻幹法 寫一大堆過載函式.不過這種方法會有很強的依賴性。也提供了一...

第十一章3

第十一章 一 滾動元件 awt中的滾動元件包括scrollbar 滾動條 和滾動面板 scrollpane 兩種。1 滾動條scrollbar 在指定的取值範圍內快速選取某一值的功能。i.構造方法 public scrollbar int orientation,int value,int visi...