大資料專業名詞

2021-09-04 04:35:59 字數 1093 閱讀 2468

常用大資料技術名詞通俗解釋

hadoop:

最早出現的大資料的概念就是體現在hadoop上面,簡單理解就是虛擬了乙個儲存系統,乙個檔案在多台機器上儲存多份,丟失機率很小。由於機器集群可以橫向擴充,因此能儲存理論上無窮多的檔案,因此稱為大資料平台。

mapreduce:

在hadoop存檔案的基礎上,mapreduce擔任處理檔案的角色,它讀到檔案,並把處理檔案的任務分成很多子任務,讓它們在多台機器上執行,然後彙總結果。因此,只要機器足夠多,處理檔案的能力可以無限擴充。但它的乙個缺點是每個任務的銜接,都是通過中間檔案來完成,因此,除了cpu外,有很多磁碟讀寫的操作。

hive:

hive是基於hadoop和mapreduce而衍生出來的,hadoop上檔案的存放在hive裡面抽象為資料庫的表,訪問表的sql會被自動解析成mapreduce的任務。在hive出現之前,玩hadoop大資料寫mapreduce任務就是個高大上的玩意,難理解,難開發,難維護。 而在hive出現後,同樣的需求,原來mapreduce可能要幾百行實現,hive則只要十多行sql就能實現,一下子就把大資料平民化了。

spark:

spark是類似於mapreduce的檔案處理引擎, 也是把讀到的資料原始檔分解成處理任務,然後分發到多台機器執行。不同的地方是,他以在記憶體執行為主。好處是速度快了, 壞處是記憶體玩不好容易奔潰,因此暫時還不是特別穩定,有效。

sparksql:

在spark基礎上增加了一種資料來源的引入方式, 之前是從各種檔案引入源資料, sparksql支援用sql匯入源資料處理(各種db,包括hive),在spark中分析處理,並把結果用sql導回去。 這個方案好是好,結構化儲存了資料,也避免了mapreduce的中間結果io讀寫, 但是,開發人員要多學習一種開發語言scala才能夠把資料處理這個事情做完整,增加了開發維護的難度。

hive on spark:

在hive的基礎上公升級,目前看起來最完美的解決方案了。把原來hive所依賴的任務計算引擎替換成spark(set hive.execution.engine=spark;),乙個配置而已,原來已經存在的**都無需改動,效能直接提公升100倍。但是,目前還沒有正式版本ga, 估計要到hive 1.3.0, 當前最新是hive 1.2.1

手機專業名詞

執行記憶體 2gb 手機記憶體 4gb sd卡儲存空間 28gb 機身儲存 手機記憶體 sd卡儲存空間 32gb ram 一 是由英文random access memory的首字母構成的,意為隨機儲存器,即在正常工作狀態下可以往儲存器中隨時讀寫資料。根據儲存單元工作原理的不同,ram又可分為靜態儲...

FPGA專業名詞

1 引言 給fpga乙個支點,它可以撬動整個數字邏輯。給我一根槓桿我就能撬動地球 是古希臘數學家 物理學家阿基公尺德說的,這句話是阿基公尺德的經典語錄,這句話還被翻譯為 給我乙個支點,我就能撬起整個地球 用了誇張的方式來說明槓桿原理。2 目錄 第一,前言 第二,章節目錄 第三,fpga專業名詞 第四...

專業名詞 學習筆記

參考文獻 cuda,compute unified device architecture的簡稱,是nividia公司開發的一種計算架構,可以利用nvidia系列顯示卡 gpus,graphics processing unites 對一些複雜的計算進行加速。sum of absolute diff...