Hadoop之OutputFormat資料輸出詳解

2021-09-24 08:02:09 字數 670 閱讀 1789

outputformat介面實現類

自定義outputformat

outputformat是mapreduce輸出的基類,所有實現mapreduce輸出都實現了 outputformat介面。下面我們介紹幾種常見的outputformat實現類。

文字輸出textoutputformat

預設的輸出格式是textoutputformat,它把每條記錄寫為文字行。它的鍵和值可以是任意型別,因為textoutputformat呼叫tostring()方法把它們轉換為字串。

sequencefileoutputformat

sequencefileoutputformat將它的輸出寫為乙個序列化檔案。如果輸出需要作為後續 mapreduce任務的輸入,這便是一種好的輸出格式,因為它的格式緊湊,很容易被壓縮。

自定義outputformat

根據使用者需求,自定義實現輸出。

為了實現控制最終檔案的輸出路徑,可以自定義outputformat。

要在乙個mapreduce程式中根據資料的不同輸出兩類結果到不同目錄,這類靈活的輸出需求可以通過自定義outputformat來實現。

自定義outputformat步驟

自定義乙個類繼承fileoutputformat。

改寫recordwriter,具體改寫輸出資料的方法write()。

Hadoop學習之安裝Hadoop

1.用xftp工具將hadoop 2.7.2.tar.gz匯入到opt目錄下面的software資料夾 2.進入到hadoop安裝包路徑下 cd opt software 3.解壓安裝檔案到 opt module下面 tar zxvf hadoop 2.7.2.tar.gz c opt module...

hadoop之hadoop基礎介紹

hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...

Hadoop學習筆記之Hadoop簡介

apache hadoop 是乙個開源的 可靠的 靈活的 分布式的計算系統 來自官網 主要受google 三篇 的啟發 gfs mapreduce bigtable hadoop 海量資料的儲存 hdfs hadoop distributed file system 海量資料的分析 mapreduc...