大資料技術第二章

2021-10-07 05:09:10 字數 1921 閱讀 2160

hadoop簡介

hadoop的特性

hadoop的應用現狀

apache hadoop版本演變

hadoop各種版本

安裝linux虛擬機器

安裝雙作業系統

hadoop集群中有哪些節點型別

hadoop框架中最核心的設計是為海量資料提供儲存的hdfs和對資料進行計算的mapreduce

mapreduce的作業主要包括:

(1)從磁碟或從網路讀取資料,即io密集工作;

(2)計算資料,即cpu密集工作

hadoop集群的整體效能取決於cpu、記憶體、網路以及儲存之間的效能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節點擊擇合適硬體型別

乙個基本的hadoop集群中的節點主要有

namenode:負責協調集群中的資料儲存

datanode:儲存被拆分的資料塊

jobtracker:協調資料計算任務

tasktracker:負責執行由jobtracker指派的任務

secondarynamenode:幫助namenode收集檔案系統執行的狀態資訊

集群網路拓撲

集群的建立與安裝

採購好相關的硬體裝置後,就可以把硬體裝入機架,安裝並執行hadoop

安裝hadoop有多種方法:

(1)手動安裝

(2)自動化安裝

為了緩解安裝和維護每個節點上相同的軟體的負擔,可以使用乙個自動化方法實現完全自動化安裝,比如red hat linux』 kickstart、debian或者docker

自動化安裝部署工具,會通過記錄在安裝過程中對於各個選項的回答來完成自動化安裝過程。

在雲計算環境中使用hadoop

hadoop不僅可以執行在企業內部的集群中,也可以執行在雲計算環境中

可以在amazon ec2中執行hadoop。ec2是乙個計算服務,允許客戶租用計算機(例項),來執行自己的應用。客戶可以按需執行或終止例項,並且按照實際使用情況來付費

hadoop自帶有一套指令碼,用於在ec2上面執行hadoop

在ec2上執行hadoop尤其適用於一些工作流。例如,在amazon s3中儲存資料,在ec2上執行集群,在集群中執行mapreduce作業,讀取儲存在s3中的資料,最後,在關閉集群之前將輸出寫回s3中;如果長期使用集群,複製s3資料到執行在ec2上的hdfs中,則可以使得資料處理更加高效,因為,hdfs可以充分利用資料的位置,s3則做不到,因為,s3與ec2的儲存不在同乙個節點上

第二章 技術

1 編譯器assert pragma warning disable 4101 使用陣列,無法傳入額外引數 define static assert1 express 使用大括號是為了保證作用域,防止名字衝突 使用類建構函式,同樣無法傳入額外引數方便上層呼叫者知道是在 template class ...

第二章,軟體測試技術

通過本章學習,你能學dao 軟體測試 測試是乙個以在程式被交付到終端使用者手上之前找到程式中的錯誤為目的的活動。測試是檢查產品的質量,而不是檢查開發人員得質量 為啥要測試?基於不同的立場,存在著兩種完全不同的測試目的。從使用者的角度的出發,普遍希望通過軟體測試暴露軟體中隱藏的 錯誤和缺陷,以考慮是否...

第二章 資料契約

在乙個服務內部,功能性的應用由 實現的。在服務外部,功能性服務在wsdl中定義。在乙個wcf服務中,應用程式資料在簡單和複雜型別表示 而在服務外部,應用程式資料由xml元資料定義表示。wcf資料契約提供了對 定義的.net clr型別與w3c組織定義用來在服務外部通訊的xml元資料定義之間的對映。使...