大資料入門 Impala框架基礎簡介

2021-10-10 20:33:37 字數 1660 閱讀 8355

在大資料處理當中,核心的資料分析處理環節,衍生出了非常多的框架元件工具,基於不同場景下的需求,給出了更多可選的技術方案。比如說在互動式查詢場景下,impala就是乙個不可忽視的重要選擇。今天的大資料入門分享,我們就來講講impala框架入門的一些基礎知識。

impala的出現,追溯其源頭,是來自於google的「新三篇**」(caffeine–網路搜尋引擎、pregel–分布式圖計算、dremel–互動式分析工具)之一的互動式分析工具dremel。

根據實驗環境下的測試,impala進行資料查詢,可以實現比hive快10-100倍,其中sql查詢效能也超過了sparksql,號稱是大資料領域當前最快的sql查詢工具。

在實際場景下,impala提供的針對於hdfs、hbase資料的高效能、低延遲的互動式sql查詢,基於hive並使用記憶體進行計算,兼顧資料倉儲,具有實時、批處理、多併發等優點,也確實效能優良,因此得到企業級使用者的青睞。

impala基於hive進行大資料分析查詢,直接使用hive的元資料庫metadata,意味著impala元資料都儲存在hive的metastore當中,並且impala相容hive的絕大多數sql語法。

在實際應用當中,要保證impala的正常使用,需要先安裝hive,保證hive安裝成功,並且還需要啟動hive的metastore服務才行。

impala把整個查詢分成一執行計畫樹,在分發執行計畫後,impala使用拉式獲取資料的方式獲取結果,把結果資料組成按執行樹流式傳遞匯集,減少的了把中間結果寫入磁碟的步驟,再從磁碟讀取資料的開銷。

使用llvm產生執行**,針對特定查詢生成特定**,同時使用inline的方式減少函式呼叫的開銷,加快執行效率。

充分利用可用的硬體指令(sse4.2)。

更好的io排程,impala知道資料塊所在的磁碟位置能夠更好的利用多磁碟的優勢,同時impala支援直接資料塊讀取和本地**計算checksum。

通過選擇合適的資料儲存格式可以得到最好的效能(impala支援多種儲存格式)。

最大使用記憶體,中間結果不寫磁碟,及時通過網路以stream的方式傳遞。

1、impala比較快,非常快,特別快,因為所有的計算都可以放入記憶體當中進行完成,只要你記憶體足夠大;

2、擯棄了mr的計算,改用c++來實現,有針對性的硬體優化;

3、具有資料倉儲的特性,對hive的原有資料做資料分析;

4、支援odbc,jdbc遠端訪問。

1、基於記憶體計算,對記憶體依賴性較大;

2、改用c++編寫,意味著維護難度增大;

3、基於hive,與hive共存亡,緊耦合;

4、穩定性不如hive,不存在資料丟失的情況。

關於大資料入門,impala框架基礎,以上就為大家做了乙個簡單的介紹了。impala這個框架,現如今也同樣是hadoop生態當中的得力幹將,學習當中應該予以相應的重視。

大資料 Impala 資料載入

1 將impala表與hdfs中的資料檔案做鏈結 hdfs dfs mkdir p user impala tab1 user impala tab2 hdfs dfs put tab1 user impala tab1 hdfs dfs put tab2 user impala tab2接著需要建...

大資料框架入門基礎理解 MapReducer

本教程中的 分為 3 個部分 解釋 salescountryreducer 類 解釋 salescountrydriver 類 其次,我們導入庫軟體包。解釋 2.定義 map 函式 publicvoidmap longwritable key,text value,outputcollectorou...

大資料基礎 junit junit4入門基礎

大資料基礎 junit junit 4.12.jar hamcrest core 1.3.jar hamcrest library 1.3.jar 2.junit4註解解釋 a.test 測試方法,測試程式會執行的方法,後邊可以跟引數代表不同的測試,如 expected xxexception.cl...