Haddop,HDFS和MapDeduce簡單理論

2021-10-10 02:46:55 字數 1105 閱讀 2779

開源的分布式儲存+分布式計算平台

核心元件:hdfs:分布式檔案系統,儲存海量資料。mapreduce:並行處理框架,實現任務分解和排程。

搭建大型資料倉儲,pb級資料的儲存,處理,分析,統計等業務。

優勢:高擴充套件,低成本,成熟的生態圈。

hive:將sql語句轉成hadoop任務去執行,降低hadoop的門檻。

hbase:儲存結構化資料的分布式資料庫。放棄了事務特性,追求更高的擴充套件。提供了資料的隨機讀寫和實時訪問,實現了對錶資料的讀寫功能。

zookeeper:監控hadoop集群裡面每個節點的狀態。管理整個集權的配置。維護節點之間的一致性。

hadoop的檔案系統

塊 - 檔案被分成塊儲存,預設大小64m,是檔案儲存處理的邏輯單元

節點 namenode:管理節點,存放檔案元資料。檔案和資料庫的對映表,資料庫與資料節點的對映表。

datenode:工作節點,存放資料塊。

資料管理策略:

每個資料塊3個副本,分布在兩個機架內的三個節點。

心跳檢測 datanode定期向namenode傳送心跳資訊。

二級namenode定期同步元素據映像檔案和修改日誌,namenode發生故障時,備胎轉正。

hdfs讀

客戶端向namenode發起讀寫請求,namenode查詢元資料。

datanode讀取blocks

hdfs寫

寫入datanode,並複製備份,最後更新元資料。

特點:

資料冗餘,實現硬體容錯。

流式資料訪問,一次寫入多次使用,一旦寫入無法修改。

適合儲存大檔案。

適合一次寫入多次讀取,順序讀寫。

不支援多使用者併發寫相同檔案。

分而治之,將乙個大任務分成多個小的子任務(map),並行執行後,合併結果(reduce)

執行流程

job & task :

jobtracker 作業排程,分配任務,監控任務執行進度。(reduce端)

tasktracker 執行任務,匯報任務狀態。(map端)

容錯機制

重複執行 4次

推測執行 對執行慢的在建立乙個同樣執行 誰快用誰 誰慢停誰。

和 區別和聯絡, 和 區別和聯絡

和 區別和聯絡,和 區別和聯絡,實際專案中,什麼情況用哪種?首先,和 的聯絡 共同點 和 都可以用作 邏輯與 運算子,都是雙目運算子。具體要看使用時的具體條件來決定。無論使用哪種運算子,對最終的運算結果都沒有影響。情況1 當上述的運算元是boolean型別變數時,和 都可以用作邏輯與運算子。情況2 ...

rpx和樣式和class和flex

5 style 靜態的樣式統一寫到 class 中。style 接收動態的樣式,在執行時會進行解析,請盡量避免將靜態的樣式寫進 style 中,以免影響渲染速度。例 6 class 用於指定樣式規則,其屬性值是樣式規則中類選擇器名 樣式類名 的集合,樣式類名不需要帶上.樣式類名之間用空格分隔。關於f...

if和switch和for語句

if和switch很像。具體什麼場景下,應用那個語句呢?如果判斷的具體數值不多,而是符合byte,short,int,char,字串。這五種型別。雖然兩個語句都可以使用,建議使用switch語句,因為效率稍高。其他情況,對區間判斷,對結果為boolean型別判斷,使用if,if的使用範圍更廣。whi...