大規模資料實戰

2022-06-12 21:48:17 字數 943 閱讀 5119

前後端處理分離解耦,前批處理+有向圖編譯,後端為有向圖優化+自動資源分配+自動監控/錯誤跟蹤

首先我們忘掉所有的框架,我們想做的業務設計其實是就是乙個count() 乙個topk()
衡量指標很簡單是sla  

工程一致性模型,強一致性,弱一致性,最終一致性

cloud spanner 就是強一致性,業務級的資料引擎

'''

複製 過濾 分離 合併

'''

可以使用發布訂閱,進行解耦 削峰
c 線性一致性 分布式系統操作就像單機一樣

a 可用性 只要不是所有節點都掛了,資料一定要返回響應

p 分割槽容錯 ,就是資料不能僅僅存在乙個節點上

儲存架構使用的cp 系統 google bigtable, hbase, mongodb

ap 系統 amazon dynamo 資料系統

kafka 屬於ca 系統

批處理層 速度處理層 服務層 

spark 不只能依賴於hadoop 才能使用,還可以執行在apache mesos ,kubernetes ,standalone 

!(平行等級裝置 spark storm presto impala

flink 資料結構是 stream  ,基於條資料進行使用的資料
這個技術打破那些痛

Python大規模資料插入Postgresql

需要owner許可權 alter table t rs standard satellite image add constraint unique source product id unique source product id batchinsert批量插入 def batchinsert ...

Bloom Filter 大規模資料處理利器

bloom filter 是由bloom 在1970 年提出的一種多雜湊函式對映的快速查詢演算法。通常應用在一些需要快速判斷某個元素是否屬於集合,但是並不嚴格要求 100 正確的場合。一.例項 為了說明 bloom filter 存在的重要意義,舉乙個例項 假設要你寫乙個網路蜘蛛 web crawl...

BloomFilter 大規模資料處理利器

bloom filter是由bloom在1970年提出的一種多雜湊函式對映的快速查詢演算法。通常應用在一些需要快速判斷某個元素是否屬於集合,但是並不嚴格要求100 正確的場合。一.例項 為了說明bloom filter存在的重要意義,舉乙個例項 假設要你寫乙個網路蜘蛛 web crawler 由於網...