常用大資料技術名詞通俗解釋

hadoop:

最早出現的大資料的概念就是體現在hadoop上面，簡單理解就是虛擬了乙個儲存系統，乙個檔案在多台機器上儲存多份，丟失機率很小。由於機器集群可以橫向擴充，因此能儲存理論上無窮多的檔案，因此稱為大資料平台。

mapreduce:

在hadoop存檔案的基礎上，mapreduce擔任處理檔案的角色，它讀到檔案，並把處理檔案的任務分成很多子任務，讓它們在多台機器上執行，然後彙總結果。因此，只要機器足夠多，處理檔案的能力可以無限擴充。但它的乙個缺點是每個任務的銜接，都是通過中間檔案來完成，因此，除了cpu外，有很多磁碟讀寫的操作。

hive:

hive是基於hadoop和mapreduce而衍生出來的，hadoop上檔案的存放在hive裡面抽象為資料庫的表，訪問表的sql會被自動解析成mapreduce的任務。在hive出現之前，玩hadoop大資料寫mapreduce任務就是個高大上的玩意，難理解，難開發，難維護。而在hive出現後，同樣的需求，原來mapreduce可能要幾百行實現，hive則只要十多行sql就能實現，一下子就把大資料平民化了。

spark:

spark是類似於mapreduce的檔案處理引擎，也是把讀到的資料原始檔分解成處理任務，然後分發到多台機器執行。不同的地方是，他以在記憶體執行為主。好處是速度快了，壞處是記憶體玩不好容易奔潰，因此暫時還不是特別穩定，有效。

sparksql:

在spark基礎上增加了一種資料來源的引入方式，之前是從各種檔案引入源資料， sparksql支援用sql匯入源資料處理(各種db，包括hive)，在spark中分析處理，並把結果用sql導回去。這個方案好是好，結構化儲存了資料，也避免了mapreduce的中間結果io讀寫，但是，開發人員要多學習一種開發語言scala才能夠把資料處理這個事情做完整，增加了開發維護的難度。

hive on spark:

在hive的基礎上公升級，目前看起來最完美的解決方案了。把原來hive所依賴的任務計算引擎替換成spark(set hive.execution.engine=spark;)，乙個配置而已，原來已經存在的**都無需改動，效能直接提公升100倍。但是，目前還沒有正式版本ga，估計要到hive 1.3.0，當前最新是hive 1.2.1

常用大資料技術名詞通俗解釋

佈線技術常用名詞解釋

虛擬化技術的常用名詞解釋

SSL技術名詞解釋

常用大資料技術名詞通俗解釋

佈線技術常用名詞解釋

虛擬化技術的常用名詞解釋

SSL技術名詞解釋

相關推薦