《HBase權威指南》讀書筆記1

2021-07-05 20:08:11 字數 1664 閱讀 5238

關於排序:

排列順序如果跟預期的不一樣,需要補鍵,比如  row-1 永遠小於 row-2,無論後面是什麼,將始終按照這個順序排列

這有可能影響到balance策略,假設你根據時間戳來做rowkey,那麼會出現最後乙個節點,資料不斷增加而前面的節點資料不變,這個過程會持續到達到rebalance的閥值,然後觸發rebalance過程,在rebalance 的時候系統效能急劇下降。當此次rebalance 完成後,只是保證了暫時的資料平衡,很快最後乙個節點又會出現達到rebalance閥值的情況,就會帶來乙個有規律的間歇性的系統效能下降,十分危險。

若干列組成列族(column family),作用是:

列族使用注意點

每個列的時間戳有以下特性

webtable: 儲存從網際網路上抓取的網頁。行鍵是反轉的url比如org.hbase.www ,有乙個用於儲存html的列叫 contents,還有其他列族,比如 anchor使用者儲存外向鏈結和入站鏈結,還有用於儲存元資料的列列族language。 content列族用多版本來儲存html,可以查詢到舊的html。例如幫助分析頁面變化頻率就可以把時間戳設定成抓取頁面的次數

行資料的訪問是原子性的,目前不支援跨行事務和跨表事務。由於行資料是原子性的,所以可以達到強一致性(表示懷疑)

hbase中擴充套件和負載均衡的基本單元成為region

api提供了

scan可以

系統支援單行事務,進一步實現單行鍵下儲存的資料的讀-修改-寫(read-modify-write)序列

單元格的值可以當計數器用,並且支援原子更新,意味著這個計數器可以在乙個操作中實現讀寫,客戶端可以基於此實現乙個全域性強一致的計數器

協處理器(coprocessor): 可以在伺服器的位址空間執行來自客戶端的**。用於實現輕量級的批處理作業,或者使用表示式分析或者彙總資料

通過包裝器可以將表轉換成mapreduce的輸入輸出目標

資料儲存在 儲存檔案(store file)中,稱為hfile

資料記錄到提交日誌(commit log),在hbase中稱之為 預寫日誌(write-ahead log, wal)(儲存在hdfs系統上)

資料寫入記憶體中的 memstore

寫入的資料超過閥值,資料被寫入hfile

資料移出memstore,丟棄提交日誌。採用滾動memstore可以實現不阻塞系統讀寫,即用空的新memstore獲取更新資料,將舊的滿的memstore轉換成乙個檔案,由於memstore中的資料本來就排序好了,所以儲存的時候不用再次排序

當記錄被固化到hfile上之後,刪除鍵值對並不是直接刪除,而是做個刪除標記delete marker。

查詢結果是memstore+hfile的資料。

查詢的時候用不到wal,只有伺服器記憶體中的資料在伺服器崩潰前沒有寫入磁碟,而後進行恢復資料時才會用到wal。

hfile過多的時候有管家機制來處理,合併有兩種型別:

minor合併:多個小檔案合併成乙個大檔案,由於是多路歸併所以速度快

major壓縮合併:將region中乙個列族的若干個hfile重寫為乙個新hfile。合併掃瞄所有鍵值對,順序重寫所有資料,重寫資料的過程中會略過做了刪除標記的資料。斷言刪除此時生效。

master 負責負載均衡,將繁忙伺服器中的region移到負載輕的伺服器中

http權威指南 讀書筆記 1

web伺服器是web資源的容器。web資源是web內容的源頭。內容資源既可以是靜態的html,js也可以是動態的指令碼程式生成的內容。mime型別是一種文字標記,表示 主要物件 子型別 中間通過斜槓來區分 主要用來在網際網路上標識資源存在的路徑為知的,類似顯示生活中的位址一樣 uri又分為url和u...

《CSS權威指南》讀書筆記

第二章 選擇器 第三章 結構和層疊 第四章 值和單位 第五章 字型 第六章 文字屬性 第七章 基本視覺格式化 第八章 內邊距邊框和外邊距 第九章 顏色和背景 第十章 浮動和定位 第十一章 表布局 第十二章 列表與生成內容 第十三章 使用者介面樣式 第十四章 非螢幕 import url sheet....

Http權威指南讀書筆記

1.1 http使用的是可靠的資料傳輸協議。1.3 型別 mime型別 multipurpose internet mail extension多用途網際網路郵件擴充套件 是為了解決在不同的電子郵件系統之間搬移報文時存在的問題。mime在電子郵件系統中工作得非常好,因此http也採納了它,用它來描述...