大資料入門 Impala框架基礎簡介

在大資料處理當中，核心的資料分析處理環節，衍生出了非常多的框架元件工具，基於不同場景下的需求，給出了更多可選的技術方案。比如說在互動式查詢場景下，impala就是乙個不可忽視的重要選擇。今天的大資料入門分享，我們就來講講impala框架入門的一些基礎知識。

impala的出現，追溯其源頭，是來自於google的「新三篇**」（caffeine–網路搜尋引擎、pregel–分布式圖計算、dremel–互動式分析工具）之一的互動式分析工具dremel。

根據實驗環境下的測試，impala進行資料查詢，可以實現比hive快10-100倍，其中sql查詢效能也超過了sparksql，號稱是大資料領域當前最快的sql查詢工具。

在實際場景下，impala提供的針對於hdfs、hbase資料的高效能、低延遲的互動式sql查詢，基於hive並使用記憶體進行計算，兼顧資料倉儲，具有實時、批處理、多併發等優點，也確實效能優良，因此得到企業級使用者的青睞。

impala基於hive進行大資料分析查詢，直接使用hive的元資料庫metadata，意味著impala元資料都儲存在hive的metastore當中，並且impala相容hive的絕大多數sql語法。

在實際應用當中，要保證impala的正常使用，需要先安裝hive，保證hive安裝成功，並且還需要啟動hive的metastore服務才行。

impala把整個查詢分成一執行計畫樹，在分發執行計畫後，impala使用拉式獲取資料的方式獲取結果，把結果資料組成按執行樹流式傳遞匯集，減少的了把中間結果寫入磁碟的步驟，再從磁碟讀取資料的開銷。

使用llvm產生執行**，針對特定查詢生成特定**，同時使用inline的方式減少函式呼叫的開銷，加快執行效率。

充分利用可用的硬體指令（sse4.2）。

更好的io排程，impala知道資料塊所在的磁碟位置能夠更好的利用多磁碟的優勢，同時impala支援直接資料塊讀取和本地**計算checksum。

通過選擇合適的資料儲存格式可以得到最好的效能（impala支援多種儲存格式）。

最大使用記憶體，中間結果不寫磁碟，及時通過網路以stream的方式傳遞。

1、impala比較快，非常快，特別快，因為所有的計算都可以放入記憶體當中進行完成，只要你記憶體足夠大；

2、擯棄了mr的計算，改用c++來實現，有針對性的硬體優化；

3、具有資料倉儲的特性，對hive的原有資料做資料分析；

4、支援odbc，jdbc遠端訪問。

1、基於記憶體計算，對記憶體依賴性較大；

2、改用c++編寫，意味著維護難度增大；

3、基於hive，與hive共存亡，緊耦合；

4、穩定性不如hive，不存在資料丟失的情況。

關於大資料入門，impala框架基礎，以上就為大家做了乙個簡單的介紹了。impala這個框架，現如今也同樣是hadoop生態當中的得力幹將，學習當中應該予以相應的重視。