大資料面試題知識點分析（六）

**：

不支援，可以用left join 實現此功能。

1.儲存於記憶體資料庫derby，此方法只能開啟乙個hive客戶端，不推薦使用。

2.儲存於mysql資料庫，可以多客戶端連線，推薦使用。

分為本地mysql資料庫，遠端mysql資料庫，但是本地的mysql資料用的比較多，因為本地讀寫速度都比較快。

1.join優化，盡量將小表放在join的左邊，如果乙個表很小可以採用mapjoin；

2.排序優化，order by 乙個reduce效率低，distirbute by +sort by 也可以實現全域性排序；

3.使用分割槽，查詢時可減少資料的檢索，從而節省時間。

hive最終都會轉化為mapreduce的job來執行，要想hive調優，實際上就是mapreduce調優，可以有下面幾個方面的調優：解決收據傾斜問題，減少job數量，設定合理的map和reduce個數，對小檔案進行合併，優化時把我整體，單個task最優不如整體最優，按照一定規則分割槽。

hive的許可權需要在hive-site.xml檔案中設定才會起作用，配置預設的是false。需要把hive.security.authorization.enabled設定為true，並對不同的使用者設定不同的許可權，例如select ,drop等的操作。

可以建立多個庫，多庫多表都支援。

textfile：預設格式，資料不做壓縮，磁碟開銷大，資料解析開銷大。

sequencefile：hadoop api提供的一種二進位制檔案支援，使用方便，可分割，可壓縮，支援三種壓縮，none，record，block。

rcfile：是一種行列儲存相結合的方式。首先，將資料按行分塊，保證同乙個record在同乙個塊上，避免讀乙個記錄讀取多個block。其次，塊資料列式儲存，有利於資料壓縮和快速的列訪問。資料載入的時候效能消耗大，但具有較好的壓縮比和查詢響應。

大資料面試題知識點分析（五）

a 一種可以加快批量寫入速度的方法是通過預先建立一些空的regions，這樣當資料寫入hbase時，會按照region分割槽情況，在集群內做資料的負載均衡。b hbase 裡面有這樣乙個hfileoutputformat類，他的實現可以將資料轉換成hfile格式，通過new乙個這個類，進行相關配置，...

kafka高階知識點面試題

在老版本kafka中，訊息都是來一條傳送一條，這種方式會造成訊息傳送的吞吐量比較低，所以之後kafka對這種方式進行了優化，提供了批量傳送的方式，把多條訊息繫結成一批訊息傳送，以此來提高訊息傳送的吞吐率。這種方式就是緩衝池的思想，傳送訊息的邏輯大概如下 1 把訊息封裝成producerrecord物...

知識點最全的資料庫面試題

1 查詢位於華東或華南地區的商的id 公司名稱地區城市和欄位的值 select 商id，公司名稱，地區，城市，from 商 where 地區華東 or 地區華南 2 查詢 10248 和 10254 號訂單的訂單id 訂單上所訂購的產品的名稱及其銷售金額 join左連線與右連線 ...

大資料面試題知識點分析（六）

大資料面試題知識點分析（五）

kafka高階知識點面試題

知識點最全的資料庫面試題

相關推薦