大資料學習之BigData常用演算法和資料結構

大資料學習之bigdata常用演算法和資料結構

1.bloom filter

由乙個很長的二進位制向量和一系列hash函式組成

優點：可以減少io操作，省空間

缺點：不支援刪除，有誤判

如果要支援刪除操作：

改成計數布隆過濾器

2.skiplist（跳表）

核心思路：

由多層組成，每層都是乙個有序鍊錶，最底層包含所有元素，元素數逐層遞減。每個節點包含兩個指標，乙個->,乙個向下。

並行程式設計情況下可以用鎖或者cas操作。

cas:

compare and

swap，解決多執行緒並**況下使用鎖造成效能損耗的一種機制，cas操作包含三個運算元——記憶體位置（v）、預期原值（a）和新值（b）。如果記憶體位置

的值與預期原值相匹配，那麼處理器會自動將該位置值更新為新值。否則，處理器不做任何操作。無論哪種情況，它都會在cas指令之前返回該位置的值。cas

有效地說明了「我認為位置v應該包含值a；如果包含該值，則將b放到這個位置；否則，不要更改該位置，只告訴我這個位置現在的值即可。

用cas實現的插入：

void

insert（node *prev, node *node） }

}3.lsm樹（log-structured merge-tree）

與b樹相比，犧牲部分讀效能，大幅提高寫效能。

宗旨：把大量隨機寫改為批量序列寫。

在記憶體中維護多個小的有序結構，在查詢時要二分遍歷這些結構，不斷把小樹合併為大樹，進行批量插入。

為了優化查詢，可以使用bloom filter。（判斷小結構中有沒有目標資料）

4.hashtree

用於快速定位海量資料中少量變化的內容

對每一項資料進行hash，多項組合之後再hash，再hash，最後到top hash。

5.cuckoo雜湊

使用兩個雜湊函式h1（x）和h2（x），插入x時，同時計算h1（x）和h2（x），如果任意乙個桶為空，將x插入相應位置，如果都滿了，選乙個桶把y踢掉，放入x,對y執行上述過程。設定最大替換次數，達到次數時增大桶的數量或者重選hash函式。

什麼是大資料（Big Data）

可以從四個方面概括資料量 volume 處理速度 velocity 多樣性 variety 真實性 veracity 簡稱4v。volume 資料量資料量大是大資料的比較明顯的特徵，一般是tb級的資料量，並且每天資料的增長量比較大。velocity 速度要求資料的處理速度比較快，從資料採集加...

讀書筆記《大資料時代 BIG DATA》

大資料時代 big data 維克托.邁爾捨恩伯格肯尼思.庫克耶著 2014年讀到的一本書，溫故而求知新大資料，量變到質變。4v volume 大量 variety 多樣 velocity 高速資料產生的速度 value 價值單個資料的代價值樣本總體精度不在重要，隨機性更重要線性...

大資料BigData總結筆記三 Flume

分布式日誌收集工具 flume是一種分布式，可靠且可用的服務，用於有效地收集，聚合和移動大量日誌資料。具有基於流資料流的簡單靈活的體系結構。具有可調整的可靠性機制以及許多故障轉移和恢復機制，具有強大的功能和容錯能力。webserver agent source channel sink hdfs 事...

大資料學習之BigData常用演算法和資料結構

什麼是大資料（Big Data）

讀書筆記 《大資料時代 BIG DATA》

大資料BigData總結筆記 三 Flume

相關推薦

讀書筆記《大資料時代 BIG DATA》

大資料BigData總結筆記三 Flume