形象的描述大資料

關於大資料：

儲存，海量的資料怎樣有效的儲存？主要包括hdfs、kafka；

計算，海量的資料怎樣快速計算？主要包括mapreduce、spark、flink等；

查詢，海量資料怎樣快速查詢？主要為nosql和olap，nosql主要包括hbase、 cassandra 等，其中olap包括kylin、impla等，其中nosql主要解決隨機查詢，olap技術主要解決關聯查詢；

挖掘，海量資料怎樣挖掘出隱藏的知識？也就是當前火熱的機器學習和深度學習等技術，包括tensorflow、caffe、mahout等；

大資料技術生態其實是乙個江湖....

在乙個夜黑風高的晚上，江湖第一大幫會google三本陣法修煉秘籍流出，大資料技術江湖從此紛爭四起、永無寧日...

這三本秘籍分別為：

以上三篇**秘籍是大資料入門的最好文章，通俗易懂，先看此三篇再看其它技術；

在google三大秘籍流出之後，江湖上，致力於武學開放的apache根據這三本秘籍分別研究出了對應的武學巨著《hadoop》，並開放給各大門派研習，hadoop包括三大部分，分別是hdfs、mapreduce和hbase：hdfs解決大資料的儲存問題。mapreduce解決大資料的計算問題。hbase解決大資料量的查詢問題。

之後，在各大門派的支援下，hadoop不斷衍生和進化各種分支流派，其中最激烈的當屬計算技術，其次是查詢技術。儲存技術基本無太多變化，hdfs一統天下。

以下為大概的演進：

1，傳統資料倉儲派說你mapreduce修煉太複雜，老子不會程式設計，老子以前用sql吃遍天下，為了將這撥人收入門下，並降低大資料修煉難度，遂出了hive，pig、impla等sql on hadoop的簡易修煉秘籍；

2，伯克利派說你mapreduce只重招數，內力無法施展，且不同的場景需要修煉不同的技術，太過複雜，於是推出基於內力（記憶體）的《spark》，意**決所有大資料計算問題。

3，流式計算相關門派說你hadoop只能憋大招（批量計算），太麻煩，於是出了sparkstreaming、storm，s4等流式計算技術，能夠實現資料一來就即時計算。

4，apache看各大門派紛爭四起，推出flink，想一統流計算和批量計算的修煉；

形象的描述大資料

程序和執行緒的形象描述

對爬山法，SA和GA的形象描述

作業系統形象化描述

形象的描述大資料

程序和執行緒的形象描述

對爬山法，SA和GA的形象描述

作業系統形象化描述

相關推薦