Hadoop子模組的介紹

2021-12-30 07:16:51 字數 978 閱讀 3571

hadoop2.x成員模組介紹

zookeeper擔任三種角色,領導者,學習者,客戶端,主要是一種協調hadoop的機制。

|---領導者負責投票的發起和決議,更新系統狀態。

|---學習者--|--跟隨者--用於接收客戶端的請求並向客戶端返回結點,在選過程中負責參與投票

|--觀察者--可以接受客戶端的連線,將寫請求**給領導者,但觀察者不參與投票,只同步領導者狀態。 目的是擴充套件系統,提高讀取速度。

|---客戶端--|--請求發起方

hbase結構化分布式非關聯式資料庫,bigtable的開源實現。

hivehive是建立在hadoop上的資料倉儲基礎構架。它提供了一系列的工具,可以用來進行資料提取轉化載入(etl),這是一種可以儲存、查詢和分析儲存在hadoop中的大規模資料的機制。hive是一種底層封裝了hadoop的資料倉儲處理工具,使用類sql的hiveql語言實現資料查詢,所有hive的資料都儲存在hadoop相容的檔案系統(例如,amazon s3、hdfs)中。hive在載入資料過程中不會對資料進行任何的修改,只是將資料移動到hdfs中hive設定的目錄下。

sqoop將關係型資料庫中的資料與hdfs(hdfs檔案,hbase中表,hive表)上的資料進行相互的匯入和匯出。是資料庫etl工》提取----轉換-----載入。。。。從資料庫中獲取資料,並經過一系列的資料清理和篩選。將合格的資料進行轉換成為一定的格式資料進行儲存。將格式化的資料儲存到hdfs檔案系統上,以供計算框架進行資料分析和挖掘。

格式化資料:|

|------tsv格式:每行資料的每列之間以製表符\t進行分割

|------csv格式:每行資料的每列之間以製表符『,逗號』進行分割。

flume收集日誌工具,收集各個應用系統和框架的日誌,將其放到hdfs分布式檔案系統的相應制定的目錄下。

mahout:可伸縮的機器學習和資料探勘工具。

pig:高階資料流語言,執行平行計算。

chukwa:用於管理分布式系統的資料收集系統。

Hadoop子模組的介紹

hadoop2.x成員模組介紹 zookeeper擔任三種角色,領導者,學習者,客戶端,主要是一種協調hadoop的機制。領導者負責投票的發起和決議,更新系統狀態。學習者 跟隨者 用於接收客戶端的請求並向客戶端返回 結點,在選過程中負責參與投票 觀察者 可以接受客戶端的連線,將寫請求 給 領導者,但...

Pexpect模組的pxssh擴充套件子模組詳解

在pexpect模組中,pexpect.pxssh.pxssh類擴充套件自pexpect.spawn類,專用於ssh連線的設定。通過pxssh類的login 方法,在第一次連線遠端ssh伺服器的時候,能夠將伺服器的證書儲存在known hosts中。pxssh類支援通過金鑰認證,而無需輸入密碼。px...

Git submodule子模組的使用

在專案中的.gitmodules檔案中檢視當前submodule設定 git clone recursive 遞迴的方式轉殖整個專案 git submodule add 新增子模組 示例 git submodule add git findername git submodule init 初始化子...