OLAP在大資料時代的挑戰

轉行做資料相關的工作有近兩年時間，除了具體技術，還有許多其它思考。

在涉及具體的技術前，先想一想為什麼需要olap這樣的系統，它有什麼價值或者說在公司或部門這是不可取代的麼？可以帶來哪些價值，是直接變現還是間接變現。如果不能回答或回答不了，那麼就是乙個很大的問題，這其實意味著資料的質量存在問題。沒有質量的資料，體量再大也毫無價值。

假設已經有很好的oltp系統，那麼oltp系統在資料量不大的情況下，繼續扮演olap角色也還可以。一旦業務紅火，那麼oltp中的analyze部分勢必會分離出來，也就是olap和oltp相互單獨存在。

olap中儲存大量歷史資料，資料儲存成了olap中要解決的第乙個也是首要問題，這個需求的解決方案有多種，可以是hdfs，也可以是nosql資料庫，也可以是distributed rdbms，當中的取捨要視具體情況而定。後面會涉及具體的考慮維度。

如何將資料從oltp遷移到olap，這個同步機制需要考慮資料一致性，zero data-loss, 實時性要求等等。

在大量甚至是海量的歷史資料中如何快速定位到所要符合條件的記錄？資料量如果在tb級以上，就需要考慮使用solr或是elasticsearch

花了好多代價儲存下來的海量資料，只是用了做簡單明細查詢，任何老闆都不能容忍，一定要在歷史的資料進行複雜的分析才行。這時候有乙個好的分布式計算引擎就很有必要了。如spark/presto/impala

資料探勘是一種比資料分析更為複雜的資料分析，呵呵，個人理解，有些繞。這個時候什麼演算法啦，什麼機器學習啦，可以上場了。

資料分析中還需要考慮到另乙個重要約束就是時間，如果希望分析結果愈快愈好，那麼就需要採用如druid這樣的系統。

如果資料規模在10tb以下，資料報含結構化和半結構化資料，明細查詢中條件比較固定，不存在全文搜尋。需要在比較短的時間內如秒級得到複雜分析結果，可以考慮使用distributed rdbms.

如果資料規模遠遠超過10tb，那麼就需要將資料儲存/資料查詢/資料分析交由不同的系統來處理，這個時候就需要組成乙個技術棧來解決總量。如hdfs/solr or elasticsearch/spark or presto or impala. 為了提公升分析的效率，除了從distributed computing engine側進行優化之外，還需要從儲存側進行優化，採用先進的儲存格式如parquet/orc/carbondata將會極大的提公升分析效能。

OLAP在大資料時代的挑戰

大資料時代下OLAP的角色轉換

大資料時代挑戰就是商機

雲計算大資料時代IT管理的機遇和挑戰

OLAP在大資料時代的挑戰

大資料時代下OLAP的角色轉換

大資料時代挑戰就是商機

雲計算大資料時代IT管理的機遇和挑戰

相關推薦