Hadoop入門學習心得

2021-07-12 02:48:01 字數 621 閱讀 5088

hadoop入門學習心得;

網際網路的快速發展帶來了資料快速增加,海量資料的儲存已經不是一台機器所能處理的問題了。hadoop的技術就應運而生。在看了超人學院吳超老師的講解之後,對這個概念有了乙個比較系統的了解。可以講hadoop的核心內容看作是兩個部分,乙個是分布式儲存,乙個是分布式計算。

對於分布式儲存,hadoop有自己的一套系統來處理叫hadoop distribution file system。為什麼分布式儲存需要乙個額外的系統來處理呢,而不是就把1tb以上的檔案分開存放就好了呢。如果不採用新的系統,我們存放的東西沒辦進行乙個統一的管理。存放在a電腦的東西只能在連線到a去找,存在b的又得單獨去b找。繁瑣且不便於管理。而這個分布式儲存檔案系統能把這些檔案分開儲存的過程透明化,使用者看不到檔案是怎麼儲存在不同電腦上,看到的只是乙個統一的管理介面。現在的雲盤就是很好的給使用者這種體驗。

對於分布式計算。在對海量資料進行處理的時候,一台機器肯定也是不夠用的。所以也需要考慮將將資料分在不同的機器上並行的進行計算,這樣不經可以節省大量的硬體的i/o開銷。也能夠將加快計算的速度。hadoop對分布式計算的系統為mapreduce。map即將資料分開存放進行計算,reduce將分布計算的得到的結果進行整合,最後彙總得到乙個最終的結果。這樣對hadoop的技術有乙個清晰框架思路。

Spring入門學習 心得

可以通過如下途徑入門spring 1 看 spring 開發指南 夏昕v0.8預覽版 2 看 輕量級 j2ee 企業應用實戰 struts spring hibernate 整合開發 李剛所著 3 看 spring framework開發參考手冊 4 還可以看看spring 學習的中文論壇 http...

MapReduce入門學習心得

mapreduce的入門課程心得 1.磁碟的讀寫速度成為瓶頸。光資料載入就會耗去大量時間。2.產生的中間結果也必須放到外部儲存裝置上,磁碟讀寫的速度又一次耗時。3.對中間結果的彙總需要將外部儲存的中間結果再一次讀入記憶體。所以將檔案分散到大量機群中進行並行處理,能夠大大減少硬碟讀寫問題造成的影響。那...

學習心得 python學習心得

自從來了深圳工作以後,尤其是屢屢面試碰壁以後。發現其實自己的知識面很窄,做筆試題的時候絞盡腦汁還是漏洞百出,並不是不會做,而是出現一大堆不該有的失誤。每次被問道,對資料庫了解嗎?說一大堆看起來很高階的東西 好啊,那我們寫幾個sql語句吧。馬上完蛋了,沒了手冊關鍵字都記不起。了解哪幾種指令碼語言,sh...