大資料面試題知識點分析(六)

2021-08-26 09:31:30 字數 1062 閱讀 5483

**:

不支援,可以用left join 實現此功能。

1.儲存於記憶體資料庫derby,此方法只能開啟乙個hive客戶端,不推薦使用。

2.儲存於mysql資料庫,可以多客戶端連線,推薦使用。

分為本地mysql資料庫,遠端mysql資料庫,但是本地的mysql資料用的比較多,因為本地讀寫速度都比較快。

1.join優化,盡量將小表放在join的左邊,如果乙個表很小可以採用mapjoin;

2.排序優化,order by 乙個reduce效率低,distirbute by +sort by 也可以實現全域性排序;

3.使用分割槽,查詢時可減少資料的檢索,從而節省時間。

hive最終都會轉化為mapreduce的job來執行,要想hive調優,實際上就是mapreduce調優,可以有下面幾個方面的調優:解決收據傾斜問題,減少job數量,設定合理的map和reduce個數,對小檔案進行合併,優化時把我整體,單個task最優不如整體最優,按照一定規則分割槽。

hive的許可權需要在hive-site.xml檔案中設定才會起作用,配置預設的是false。需要把hive.security.authorization.enabled設定為true,並對不同的使用者設定不同的許可權,例如select ,drop等的操作。

可以建立多個庫,多庫多表都支援。

textfile:預設格式,資料不做壓縮,磁碟開銷大,資料解析開銷大。

sequencefile:hadoop api提供的一種二進位制檔案支援,使用方便,可分割,可壓縮,支援三種壓縮,none,record,block。

rcfile:是一種行列儲存相結合的方式。首先,將資料按行分塊,保證同乙個record在同乙個塊上,避免讀乙個記錄讀取多個block。其次,塊資料列式儲存,有利於資料壓縮和快速的列訪問。資料載入的時候效能消耗大,但具有較好的壓縮比和查詢響應。

大資料面試題知識點分析(五)

a 一種可以加快批量寫入速度的方法是通過預先建立一些空的regions,這樣當資料寫入hbase時,會按照region分割槽情況,在集群內做資料的負載均衡。b hbase 裡面有這樣乙個hfileoutputformat類,他的實現可以將資料轉換成hfile格式,通過new乙個這個類,進行相關配置,...

kafka高階知識點面試題

在老版本kafka中,訊息都是來一條傳送一條,這種方式會造成訊息傳送的吞吐量比較低,所以之後kafka對這種方式進行了優化,提供了批量傳送的方式,把多條訊息繫結成一批訊息傳送,以此來提高訊息傳送的吞吐率。這種方式就是緩衝池的思想,傳送訊息的邏輯大概如下 1 把訊息封裝成producerrecord物...

知識點最全的資料庫面試題

1 查詢位於 華東 或 華南 地區的 商的id 公司名稱 地區 城市和 欄位的值 select 商id,公司名稱,地區,城市,from 商 where 地區 華東 or 地區 華南 2 查詢 10248 和 10254 號訂單的訂單id 訂單上所訂購的產品的名稱及其銷售金額 join左連線與右連線 ...