大規模並行查詢引擎 BlinkDB

2021-09-02 02:51:52 字數 391 閱讀 7646

blinkdb 是乙個用於在海量資料上執行互動式 sql 查詢的大規模並行查詢引擎。它允許使用者通過權衡資料精度來提公升查詢響應時間,其資料的精度被控制在允許的誤差範圍內。

為了達到這個目標,blinkdb 使用兩個核心思想:

我們已經使用了 tpc-h 基準測試來評估 blinkdb 的效能,實際分析工作負載來自 conviva inc. 和在 facebook inc 的部署。

在 vldb 2012 中,blinkdb 演示了在 amazon ec2 集群部署了 100 個節點,大約 17tb 的資料中查詢不到 2 秒鐘,比 hive 快 200 倍,錯誤率在 2-10%。

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...

大規模快速發展

infoq u0026 xd n u0026 xd n u0026 xd n humble 在演講中,我引用了 douglas hubbard為cto雜誌寫的一篇文章,douglas hubbard是優秀著作 how to measure anything 的作者。即使專案中有著非常不確定的開發成本...

大規模快速發展

infoq humble 在演講中,我引用了 douglas hubbard為cto雜誌寫的一篇文章,douglas hubbard是優秀著作 how to measure anything 的作者。即使專案中有著非常不確定的開發成本,我們也沒有發現這些成本對投資決策有著重要的參考價值 唯一重要的未...