hadoop實戰筆記 170816

在啟動的時候，每台hregion伺服器都會檢查自己的hlog檔案（hlog是磁碟上的記錄檔案，它記錄著所有的更新操作），看看最近一次執行flushcache之後有沒有新的更新寫入操作。如果沒有更新，就表示所有的資料都已經更新到檔案中了；如果有更新，伺服器就會先把這些更新寫入快取記憶體，然後呼叫fulshcache寫入到檔案中。最後伺服器會刪除舊的hlog檔案，並開始讓使用者訪問資料。

因此，為了節省時間可以少呼叫flushcache，但是這樣會增加記憶體的佔用量，而且在伺服器重啟的時候會延長很多時間。如果定期呼叫flushcache，快取大小將會控制在乙個較低的水平上，而且hlog檔案也會很快重構，但是呼叫flushcache的時候會造成系統負載瞬間增加。

hlog會被定期回滾，回滾的時候是按照時間來備份檔案的，每次回滾的時候，系統會刪除那些已經被寫到檔案中的更新，回滾hlog只會占用很少的時間，建議經常回滾以減少檔案尺寸。

每一次呼叫flushcache會生成乙個新的hstorefile檔案，從乙個hstore裡面獲取任何乙個值都需要訪問所有的hstorefile檔案，這會十分耗時，所以我們要定期把這些分散的檔案合併到乙個大檔案裡面，hstore.compact()可以完成合併工作。不過這樣的工作十分占用資源，所以只有在hstorefile檔案的數量超過乙個設定值的時候才會觸發。

flushcache會建立乙個新的hstorefile檔案，並把快取中所有需要更新的資料寫到檔案裡，在flushcache之後，log的重建次數會清零。

compact會把所有的hstorefile檔案合併成乙個大檔案。

和bigtable不同的是，hbase的每個更新如果被正確提交，且commit沒有返回錯誤，拿它就被寫到記錄檔案裡面了，這不會造成資料丟失。

兩個hregion可以通過呼叫hregion.closeandmerge()合併成乙個新的hregion，在當前版本下進行此操作需要兩台hregion都停機。

當乙個hregion變得太過巨大，超過設定的閾值時，hregion伺服器會呼叫hregion.closeandsplit()將此hregion拆分為兩個，並且報告給主伺服器讓它決定由哪台hregion伺服器來存放新的hregion。這個拆分過程十分迅速，因為兩台新的hregion最初只是保留原來hregionfile檔案的引用，這個時候舊的hregion會處於停止服務的狀態，當新的hregion拆分完成並且把引用刪除了以後，舊的hregion才會刪除。

hbase master伺服器

hadoop實戰筆記 170816

Hadoop實戰應用

Hadoop實戰 11 hive閱讀筆記

hadoop實戰隨筆 0712

hadoop實戰筆記 170816

Hadoop實戰應用

Hadoop實戰 11 hive閱讀筆記

hadoop實戰隨筆 0712

相關推薦