形象的描述大資料

2021-08-13 11:49:28 字數 1182 閱讀 2209

關於大資料:

儲存,海量的資料怎樣有效的儲存?主要包括hdfs、kafka;

計算,海量的資料怎樣快速計算?主要包括mapreduce、spark、flink等;

查詢,海量資料怎樣快速查詢?主要為nosql和olap,nosql主要包括hbase、 cassandra 等,其中olap包括kylin、impla等,其中nosql主要解決隨機查詢,olap技術主要解決關聯查詢;

挖掘,海量資料怎樣挖掘出隱藏的知識?也就是當前火熱的機器學習和深度學習等技術,包括tensorflow、caffe、mahout等;

大資料技術生態其實是乙個江湖....

在乙個夜黑風高的晚上,江湖第一大幫會google三本陣法修煉秘籍流出,大資料技術江湖從此紛爭四起、永無寧日...

這三本秘籍分別為:

以上三篇**秘籍是大資料入門的最好文章,通俗易懂,先看此三篇再看其它技術;

在google三大秘籍流出之後,江湖上,致力於武學開放的apache根據這三本秘籍分別研究出了對應的武學巨著《hadoop》,並開放給各大門派研習,hadoop包括三大部分,分別是hdfs、mapreduce和hbase:hdfs解決大資料的儲存問題。mapreduce解決大資料的計算問題。hbase解決大資料量的查詢問題。

之後,在各大門派的支援下,hadoop不斷衍生和進化各種分支流派,其中最激烈的當屬計算技術,其次是查詢技術。儲存技術基本無太多變化,hdfs一統天下。

以下為大概的演進:

1,傳統資料倉儲派說你mapreduce修煉太複雜,老子不會程式設計,老子以前用sql吃遍天下,為了將這撥人收入門下,並降低大資料修煉難度,遂出了hive,pig、impla等sql on hadoop的簡易修煉秘籍;

2,伯克利派說你mapreduce只重招數,內力無法施展,且不同的場景需要修煉不同的技術,太過複雜,於是推出基於內力(記憶體)的《spark》,意**決所有大資料計算問題。

3,流式計算相關門派說你hadoop只能憋大招(批量計算),太麻煩,於是出了sparkstreaming、storm,s4等流式計算技術,能夠實現資料一來就即時計算。

4,apache看各大門派紛爭四起,推出flink,想一統流計算和批量計算的修煉;

程序和執行緒的形象描述

程序 process 和執行緒 thread 是作業系統的基本概念,但是它們比較抽象,不容易掌握。最近,我讀到一篇材料,發現有乙個很好的模擬,可以把它們解釋地清晰易懂。計算機的核心是cpu,它承擔了所有的計算任務。它就像一座工廠,時刻在執行。假定工廠的電力有限,一次只能供給乙個車間使用。也就是說,乙...

對爬山法,SA和GA的形象描述

注意,在目前討論的所有爬山法中,袋鼠最有希望到達靠近它出發點的山頂。但不能保證該山頂是珠穆朗瑪峰,或者是乙個非常高的峰,各種使用的方法都試圖找到實際全域性最優值。在sa 模擬退火演算法 中,袋鼠喝醉了,而且隨機地跳躍了很長時間,但是,它漸漸清醒了並朝著峰頂跳去。在ga 遺傳演算法 中,有很多袋鼠,它...

作業系統形象化描述

總體需求 成立一家外包公司,然後上市 老闆 作業系統就是外包公司的老闆 基於開放的營商環境 x86體系結構 建立一家外包公司 系統啟動 因為沒有員工,老闆親自接專案 實模式 公司慢慢做大,專案越接越多 保護模式 多程序 為了管理各個外包專案,建立了專案管理體系 程序管理 會議室管理體系 記憶體管理 ...