常用大資料技術名詞通俗解釋

2021-09-02 13:20:06 字數 1093 閱讀 6819

常用大資料技術名詞通俗解釋

hadoop:

最早出現的大資料的概念就是體現在hadoop上面,簡單理解就是虛擬了乙個儲存系統,乙個檔案在多台機器上儲存多份,丟失機率很小。由於機器集群可以橫向擴充,因此能儲存理論上無窮多的檔案,因此稱為大資料平台。

mapreduce:

在hadoop存檔案的基礎上,mapreduce擔任處理檔案的角色,它讀到檔案,並把處理檔案的任務分成很多子任務,讓它們在多台機器上執行,然後彙總結果。因此,只要機器足夠多,處理檔案的能力可以無限擴充。但它的乙個缺點是每個任務的銜接,都是通過中間檔案來完成,因此,除了cpu外,有很多磁碟讀寫的操作。

hive:

hive是基於hadoop和mapreduce而衍生出來的,hadoop上檔案的存放在hive裡面抽象為資料庫的表,訪問表的sql會被自動解析成mapreduce的任務。在hive出現之前,玩hadoop大資料寫mapreduce任務就是個高大上的玩意,難理解,難開發,難維護。 而在hive出現後,同樣的需求,原來mapreduce可能要幾百行實現,hive則只要十多行sql就能實現,一下子就把大資料平民化了。

spark:

spark是類似於mapreduce的檔案處理引擎, 也是把讀到的資料原始檔分解成處理任務,然後分發到多台機器執行。不同的地方是,他以在記憶體執行為主。好處是速度快了, 壞處是記憶體玩不好容易奔潰,因此暫時還不是特別穩定,有效。

sparksql:

在spark基礎上增加了一種資料來源的引入方式, 之前是從各種檔案引入源資料, sparksql支援用sql匯入源資料處理(各種db,包括hive),在spark中分析處理,並把結果用sql導回去。 這個方案好是好,結構化儲存了資料,也避免了mapreduce的中間結果io讀寫, 但是,開發人員要多學習一種開發語言scala才能夠把資料處理這個事情做完整,增加了開發維護的難度。

hive on spark:

在hive的基礎上公升級,目前看起來最完美的解決方案了。把原來hive所依賴的任務計算引擎替換成spark(set hive.execution.engine=spark;),乙個配置而已,原來已經存在的**都無需改動,效能直接提公升100倍。但是,目前還沒有正式版本ga, 估計要到hive 1.3.0, 當前最新是hive 1.2.1

佈線技術常用名詞解釋

應用系統 應採用某種方式傳輸資訊的系統,這個系統能在綜合布線上正常執行。線纜 線纜是指與資訊科技裝置相連的電纜 光纜及各種軟電纜。綜合佈線 綜合佈線是由線纜及相關連線硬體組成的資訊傳輸通道,它能支援多種應用系統。綜合佈線中不包括應用系統中的各種終端裝置和轉換裝置。建築群 園區 乙個或多個建築物構成的...

虛擬化技術的常用名詞解釋

靜態遷移 也叫做常規遷移 離線遷移 offline migration 就是在虛擬機關機或暫停的情況下從一台物理機遷移到另一台物理機。因為虛擬機器的檔案系統建立在虛擬機器映象上面,所以在虛擬機關機的 情況下,只需要簡單的遷移虛擬機器映象和相應的配置檔案到另外一台物理主機上 如果需要儲存虛擬機器遷移之...

SSL技術名詞解釋

什麼是公鑰基礎設施 pki 怎樣實現數字簽名?什麼是數字證書?什麼是伺服器證書?伺服器證書如何操作?如何實現加密?什麼是數字證書金鑰對?什麼是ssl證書?什麼是鑑別與加密?公用與私用數字證書有什麼區別?什麼是公鑰基礎設施 pki 返回頂部 如何實現加密?返回頂部 怎樣實現數字簽名?當使用乙個程式對資...