Haddop,HDFS和MapDeduce簡單理論

開源的分布式儲存+分布式計算平台

核心元件：hdfs：分布式檔案系統，儲存海量資料。mapreduce：並行處理框架，實現任務分解和排程。

搭建大型資料倉儲，pb級資料的儲存，處理，分析，統計等業務。

優勢：高擴充套件，低成本，成熟的生態圈。

hive：將sql語句轉成hadoop任務去執行，降低hadoop的門檻。

hbase：儲存結構化資料的分布式資料庫。放棄了事務特性，追求更高的擴充套件。提供了資料的隨機讀寫和實時訪問，實現了對錶資料的讀寫功能。

zookeeper：監控hadoop集群裡面每個節點的狀態。管理整個集權的配置。維護節點之間的一致性。

hadoop的檔案系統

塊 - 檔案被分成塊儲存，預設大小64m，是檔案儲存處理的邏輯單元

節點 namenode：管理節點，存放檔案元資料。檔案和資料庫的對映表，資料庫與資料節點的對映表。

datenode：工作節點，存放資料塊。

資料管理策略：

每個資料塊3個副本，分布在兩個機架內的三個節點。

心跳檢測 datanode定期向namenode傳送心跳資訊。

二級namenode定期同步元素據映像檔案和修改日誌，namenode發生故障時，備胎轉正。

hdfs讀

客戶端向namenode發起讀寫請求，namenode查詢元資料。

datanode讀取blocks

hdfs寫

寫入datanode，並複製備份，最後更新元資料。

特點：

資料冗餘，實現硬體容錯。

流式資料訪問，一次寫入多次使用，一旦寫入無法修改。

適合儲存大檔案。

適合一次寫入多次讀取，順序讀寫。

不支援多使用者併發寫相同檔案。

分而治之，將乙個大任務分成多個小的子任務（map），並行執行後，合併結果（reduce）

執行流程

job & task ：

jobtracker 作業排程，分配任務，監控任務執行進度。（reduce端）

tasktracker 執行任務，匯報任務狀態。（map端）

容錯機制

重複執行 4次

推測執行對執行慢的在建立乙個同樣執行誰快用誰誰慢停誰。

和區別和聯絡，和區別和聯絡

和區別和聯絡，和區別和聯絡，實際專案中，什麼情況用哪種？首先，和的聯絡共同點和都可以用作邏輯與運算子，都是雙目運算子。具體要看使用時的具體條件來決定。無論使用哪種運算子，對最終的運算結果都沒有影響。情況1 當上述的運算元是boolean型別變數時，和都可以用作邏輯與運算子。情況2 ...

rpx和樣式和class和flex

5 style 靜態的樣式統一寫到 class 中。style 接收動態的樣式，在執行時會進行解析，請盡量避免將靜態的樣式寫進 style 中，以免影響渲染速度。例 6 class 用於指定樣式規則，其屬性值是樣式規則中類選擇器名樣式類名的集合，樣式類名不需要帶上.樣式類名之間用空格分隔。關於f...

if和switch和for語句

if和switch很像。具體什麼場景下，應用那個語句呢？如果判斷的具體數值不多，而是符合byte，short，int，char，字串。這五種型別。雖然兩個語句都可以使用，建議使用switch語句，因為效率稍高。其他情況，對區間判斷，對結果為boolean型別判斷，使用if，if的使用範圍更廣。whi...

Haddop,HDFS和MapDeduce簡單理論

和 區別和聯絡， 和 區別和聯絡

rpx和樣式和class和flex

if和switch和for語句

相關推薦

和區別和聯絡，和區別和聯絡