大規模並行查詢引擎 BlinkDB

blinkdb 是乙個用於在海量資料上執行互動式 sql 查詢的大規模並行查詢引擎。它允許使用者通過權衡資料精度來提公升查詢響應時間，其資料的精度被控制在允許的誤差範圍內。

為了達到這個目標，blinkdb 使用兩個核心思想:

我們已經使用了 tpc-h 基準測試來評估 blinkdb 的效能，實際分析工作負載來自 conviva inc. 和在 facebook inc 的部署。

在 vldb 2012 中，blinkdb 演示了在 amazon ec2 集群部署了 100 個節點，大約 17tb 的資料中查詢不到 2 秒鐘，比 hive 快 200 倍，錯誤率在 2-10%。

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...

大規模快速發展

infoq u0026 xd n u0026 xd n u0026 xd n humble 在演講中，我引用了 douglas hubbard為cto雜誌寫的一篇文章，douglas hubbard是優秀著作 how to measure anything 的作者。即使專案中有著非常不確定的開發成本...

大規模快速發展

infoq humble 在演講中，我引用了 douglas hubbard為cto雜誌寫的一篇文章，douglas hubbard是優秀著作 how to measure anything 的作者。即使專案中有著非常不確定的開發成本，我們也沒有發現這些成本對投資決策有著重要的參考價值唯一重要的未...

大規模並行查詢引擎 BlinkDB

大規模機器學習

大規模快速發展

大規模快速發展

相關推薦