hive的初步認識與hive的本質

hive是什麼？就從這兒開始學習。。。。

hive是建立在hadoop hdfs上的資料倉儲基礎架構。

hive可以用來資料抽取轉換載入（etl）。

hive定義了簡單的類sql查詢語句，稱為hql。

hive是sql解析引擎，它將sql語句轉移成m/r job,然後在hadoop上執行。

hive的表其實就是hdfs的目錄，hive的資料對應相應目錄下的檔案。

hive使用場景：非實時的海量資料分析/挖掘/建模

hive本質是將sql轉換為mapreduce程式

那我就說哈本質過程，掌握本質就能掌握其核心思想。

當我們在控制台輸入乙個hql(類似sql),接下來hive處理轉換成mapreduce,然後提交到hadoop執行計算，最後將結果返回到控制台。

上面這個過程你就感覺自己在操作關聯式資料庫一樣，根本不需要底層是怎麼實現的。就是這麼簡單自信。

真正想理解hive必須要理解mapreduce。

因為他的本質是跑的mapreduce程式，所以他將不適合實時任務處理。這就是和impala本質區別。

雖然impala和hive都是建立在hadoop（hdfs）之上的。但是：impala沒有使用 mapreduce進行平行計算，而hive依賴maprduce.

雖然mapreduce是非常好的平行計算框架，但它更多的面向批處理模式，而不是面向互動式的sql執行。與 mapreduce相比：impala把整個查詢分成一執行計畫樹，而不是一連串的mapreduce任務，在分發執行計畫後，impala使用拉式獲取資料的方式獲取結果，把結果資料組成按執行樹流式傳遞匯集，減少的了把中間結果寫入磁碟的步驟，再從磁碟讀取資料的開銷。impala使用服務的方式避免每次執行查詢都需要啟動的開銷，即相比hive沒了mapreduce啟動時間.

說的有點多了。。。想起一點就記錄一些。這樣也不錯。

hive的初步認識與hive的本質

初學HIVE（一）初步認識HIVE

HIve的初步認識（一）

hive的初步認識（二）

hive的初步認識與hive的本質

初學HIVE（一） 初步認識HIVE

HIve的初步認識（一 ）

hive的初步認識（二）

相關推薦

初學HIVE（一）初步認識HIVE

HIve的初步認識（一）